演讲摘要:阿里云高性能网络(HPN: High Performance Network)是一种专为AI大模型时代而设计的新型智算数据中心网络,是 AI基础设施的核心底座,有效解决了AI训练集群大规模扩展所带来的性能问题,保障了网络故障场景下的集群整体稳定性和高性能,达到了万卡规模的集群网络性能的可预期,极大的提升了集群的有效算力。本报告将全面阐述阿里云HPN 架构设计理念,端网融合的技术架构体系,全栈自研(包括交换机,网卡,光互连,RDMA协议栈,集合通信等)的核心技术创新,并与行业专家一起探讨未来AI智算基础设施演进方向。
讲者简介:蔡德忠,阿里云智能基础设施事业部副总裁,网络研发事业部负责人,首席网络架构师。曾主导设计了阿里云新一代超大规模数据中心网络架构,面向AI大模型时代的新型高性能智算网络架构,以及阿里巴巴集团 IPv6 网络架构,带领团队实现了阿里云基础设施网络全域核心软硬件系统的自主研发。是 Linux Foundation SONiC 项目的创世成员 Board Member,UEC(超以太网联盟)技术咨询委员会委员,在推动网络行业生态发展,设备白盒化,以及高性能智算网络,IPv6/SRv6等领域的技术架构创新做出了贡献。有十多项网络领域的美国技术专利,合作或贡献了十多项 IETF 网络协议标准,在 SIGCOMM,NSDI,OSDI,SOSP 等会议上发表了十多篇论文。在加入阿里云之前,是思科 Distinguished Engineer,思科运营商事业部全球解决方案首席架构师。
版权所有:中国计算机学会技术支持邮箱:conf_support@ccf.org.cn