人工智能应用的快速发展,使得计算机系统技术进入了智算时代。本论坛重点研讨智算时代计算机存储和计算机网络技术面临的新挑战和新机遇,包括算力网络架构、图数据处理方法、AI集群网络技术、RDMA协议、分布式事务机理、分布式系统一致性理论等。论坛旨在促进存储领域和网络领域的互动交流,推动交叉研究创新。论坛讲者均在该领域取得了杰出科研成绩,既包括业界领军科学家,也包括中生代和新生代的优秀青年学者。
李丹
清华大学
李丹,清华大学计算机系长聘教授,教育部长江学者特聘教授,曾担任国家973计划项目首席科学家、国家重点研发计划项目负责人、国家十四五重点研发计划“网络空间安全治理”专家组副组长。主要研究方向为数据中心网络、网络智能、网络安全。发表学术论文100余篇,获授权专利40余项。获教育部青年科学奖、中创软件奖,以第一完成人获中国通信学会技术发明一等奖。
翟恩南
阿里云
翟恩南,阿里云基础网络研究负责人,阿里云资深技术专家。2015 年于耶鲁大学计算机系获博士学位,随后担任耶鲁大学研究型助理教授,2018 年加入阿里巴巴。主导阿里云智能化网络可靠性运维体系,确保北京冬奥、东京奥运、钉钉上亿人线上办公期间阿里云直播网络 0 故障;主导研制阿里云AI大模型数据中心网络创新体系。研究领域包括计算机网络、分布式系统等,先后在这些方向的国际顶级会议如 SIGCOMM、NSDI 等累计发表 60 余篇论文(包括 SIGCOMM 13 篇)。多次担任 SIGCOMM、NSDI 等国际顶级会议程序委员会委员。现任 CCF 互联网专委常委及分布式计算专委常务委员。曾获 SIGCOMM 最佳论文优胜奖、获中国通信学会技术发明一等奖。
李肯立
湖南大学
李肯立,湖南大学教授、博士生导师,湖南大学党委常委、副校长,兼信息科学与工程学院院长,国家超级计算长沙中心主任。主要研究领域为并行分布式处理、超级计算与云计算、面向大数据和人工智能的高效能计算等。主持国家重点研发计划项目、国家自然科学基金重点项目等国家和省部级项目34项,在IEEE-TC、IEEE-TPDS、中国科学、计算机学报等国内外高水平计算机学术刊物上发表论文250余篇,其中SCI(E)收录近200篇
报告题目:超算算力网与区域算力网关键技术探讨
报告摘要:算力网络指依托高速、移动、安全、泛在的网络连接,整合网、云、数、智、安、边、端、链等多层次算力资源,提供数据感知、传输、存储、运算等一体化服务的新型信息基础设施。建立超算算力调度和算力需求对接平台,是提升超算算力使用效率的必由之路,而区域算力网的关键在于如何提升区域内主要算力中心的资源融合与协同调度能力。将汇报算力互联基础设施的重要组成部分:超算互联网与省域内算网构建的关键技术,包括云网融合架构、多云环境下的任务协同计算与调度、算网融合与数据协同等方面的应用需求、前沿进展以及原型系统研制情况。
王国仁
北京理工大学
王国仁,北京理工大学教授、博士生导师、长江学者特聘教授、国家杰出青年科学基金获得者。入选国家百千万人才工程国家级人选,授予“有突出贡献中青年专家”荣誉称号。主持国家自然科学基金、国家重点研发计划、国防173等30余项科研项目。 发表学术论文300余篇,主要研究方向包括:数据湖、 图数据管理、大数据计算等。
报告题目:大图数据社区搜索的基础模型与方法
报告摘要:从图数据中搜索紧密连接的社区子图是图数据分析领域的一个基础性问题,其在社交网络分析、推荐系统、欺诈团伙挖掘,金融风险分析等领域具有重要应用。如何对现实应用中大图数据的社区结构进行建模,以及如何高效搜索大图数据的社区结构一直是学术界和工业界的研究热点。本次报告将主要介绍我们课题组在社区建模与搜索方法方面取得的最新研究进展,包括继承性稠密子图建模与搜索方法、时序社区建模与搜索方法、以及基于继承性稠密子图计数的高阶社区建模与搜索方法等工作。
刘冰洋
清华大学
刘冰洋,清华大学计算机系博士,现任华为网络技术实验室主任,负责华为公司网络领域的研究创新、技术体系构建和产业下一代际的技术突破。担任中国通信学会信息通信网络专委会副主任委员,中国通信标准化协会TC614副主席,著有论文和专利数十篇。
报告题目:AI集群网络传输技术研究
报告摘要:大模型训练对集群通网络的传输性能有极高的要求。当前,随着大模型规模增大、模型走向MOE,训练集群规模也相应增大,范围从DCN走向DCI,部署方式走向多租户多任务混部,对集群网络传输系统提出了新的挑战。本报告介绍华为网络技术实验室在AI集群网络传输技术方面的研究进展。
华宇
华中科技大学教授
华宇,华中科技大学教授,国家杰出青年科学基金获得者,CCF杰出会员和杰出演讲者,长期从事新型存储器件、高性能存储系统和安全架构等方面的研究工作,注重推动大内存在持久化、原子化、智能化方面的发展,形成了从器件-系统-安全的一体化技术体系。在OSDI、ASPLOS、MICRO、FAST等会议上发表多篇学术论文。在ICDCS 2021、ACM APSys 2019等国际会议上担任程序主席/副主席,在OSDI、SIGCOMM、FAST、NSDI、MICRO、ASPLOS等国际会议上担任程序委员,是ACM Transactions on Storage期刊的编委。研究成果获得教育部自然科学一等奖等三项省部级科技奖励,以及FAST 2023等四项国际会议和期刊的最佳论文奖。
报告题目:智能赋能的分布式事务机理
报告摘要:大内存系统在高性能和大容量方面具有典型特征,并面向分布式事务机制来保证操作原子性和数据持久性,而智能赋能是进一步提升大内存系统性能的关键所在。报告将全面系统地阐述大内存系统环境中面向智能赋能的分布式事务机理,在传输机制、数据结构、版本管理等方面介绍相关的工作进展,为未来大内存系统的进一步发展提供思路。
向乔
厦门大学
向乔,厦门大学信息学院教授,博士生导师,教育部青年长江学者,人社部高层次留学人才;中国计算机学会高级会员、互联网专委会、网络与数据通信专委会、分布式计算与系统专委会委员。ACM/IEEE-CS/AAAI CS2023国际计算机科学课程体系改革工作组常务委员,ACM SIGCSE China常务理事。2014年博士毕业于美国韦恩州立大学计算机科学系。2014-2020年在加拿大麦吉尔大学,美国耶鲁大学从事博士后与研究助理教授工作,主要研究方向为网络与形式化方法、可编程网络、高性能网络和物联网。在SIGCOMM, OSDI, FAST, SC, INFOCOM, JSAC, TON, TMC等计算机网络与系统顶级学术会议与期刊发表论文90余篇,合著专著一部;主持国家重点研发计划课题,国自然面上等国家级科研项目;获Facebook Research Award和4项国际会议论文奖。
报告题目:远程直接缓存访问:数据中心网络的“高速最后一公里
报告摘要:分布式应用的高内存带宽消耗会导致高速RDMA网络中的网络吞吐量显著下降和尾延迟大幅增加。通过系统的测量研究,我们发现这一现象的根本原因是:应用程序进程与网络进程之间对内存带宽的争夺会导致接收端的网卡频繁丢包,从而触发网络的拥塞控制机制,最终导致网络性能下降。进一步的观测与统计表明,在大多数分布式应用中,从网络接收到的数据最终都会通过CPU写入高速存储介质(SSD)。因此,为了解决高内存带宽消耗带来的网络性能下降,我们提出,让网卡在接收数据时,绕过主机内存,直接访问缓存,从而规避内存带宽这一性能瓶颈。基于这一设计思想,我们设计并实现了Jet系统,利用少量的CPU缓存以线速处理从网络接收到的数据。实验结果表明,对于分布式存储应用,Jet在存储节点上不消耗任何内存带宽的情况下,将网络吞吐量提高了4.7%;而当网络受到高内存带宽压力时,Jet可分别将大块数据和小块数据传输的网络吞吐量提高了17%和45%;同时,对于时延敏感型HPC应用,Jet也可以将其通信延迟降低35.1%。
王肇国
上海交大
王肇国,上海交大长聘副教授,博导,软件学院副院长,国家优秀青年科学基金获得者,重点研发计划项目负责人。主要从事数据库系统与分布式系统研究,成果发表在OSDI、SIGMOD、VLDB、NSDI、PPoPP、PODC等相关领域权威会议上。获2023 ACM SIGMOD研究亮点奖、SIGMOD 2022最佳论文优胜奖(Honorable Mention)、ACM ChinaSys新星奖、华为奥林帕斯先锋奖,以及两次华为火花奖。学术兼职包括OpenHarmony技术指导委员会智能数据管理TSG负责人、ACM ChinaSys秘书长、CCF学术工作委员会委员、CCF数据库、系统软件、高性能专委执委、Frontiers of Computer Science青年编委。曾受邀担任EuroSys 2025、NSDI 2024、SoCC 2024/2023等国际会议的程序委员会成员。
报告题目:分布式系统中的幂等一致性问题
报告摘要:随着云计算的发展,幂等性已经成为分布式系统的重要概念,也是分布式系统实现重试容错(Retry on Failure)的基础。本次报告将以服务器无感知计算(Serverless Computing)为案例,对云原生环境下的幂等性定义进行了重新思考和深入讨论,提出了全新的一致性语义—幂等一致性。并在此基础上,设计了自动化验证工具Flux,该工具可以自动判定任意程序的幂等一致性语义。对于不满足幂等一致性的程序,在保证性能最大化的同时实现自动修复。测试表明,相比于现有工作 Beldi 和 Boki,通过Flux修复的程序性能可最多提升10倍。
版权所有:中国计算机学会技术支持邮箱:conf_support@ccf.org.cn