计算方式正从自动化演变成智能化。随着计算规模与复杂度持续增长,对计算、访存、通信提出了严峻挑战。本论坛将围绕图计算、可重构计算以及稀疏计算等先进计算方式深入研讨当前计算机软硬件支撑系统的技术瓶颈、设计思路以及最新学术成果,为智能时代构筑国产先进计算基础设施提供崭新的技术视角以及生态规划。最后,讲者们将与听众围绕论坛主题开展即兴问答与讨论。
沈明华
中山大学
沈明华,现为中山大学计算机学院副教授、博士生导师,入选国家高层次青年人才计划,获得广东省杰出青年自然科学基金和小米青年学者项目。主要研究方向是计算机编译与结构、深度学习系统、芯片设计与自动化。以第一或通讯作者发表ISCA、SC、DAC、FPGA、ICCAD等领域内重要论文30余篇,主持鹏程国家实验室科教基金重点项目、国家自然科学基金面上和青年项目、国家重点研发项目子课题以及华为、海思等产学研项目共计10项,获得广东省科技进步特等奖(排名11/21),申请或授权国家专利与软著8项。
周健
华中科技大学
周健,华中科技大学武汉光电国家研究中心副教授,博士生导师,华中卓越学者,博士毕业于美国中佛罗里达大学。入选“湖北省高层次人才计划”、“武汉英才”和“东湖学者”。专注存算传融合架构与系统研究。主持国家重点研发计划青年科学家项目、国自基重点项目子项目、国自基青年项目、CCF-华为胡杨林基金、阿里巴巴创新研究计划等。发表包括ISCA、ATC、DAC等国际一流会议及期刊论文30余篇。提出高性价比企业级存储系统,获华为火花奖。
钱学海
清华大学
钱学海是清华大学计算机系长聘教授,研究领域报告并行计算机体系结构、面向领域的体系结构和系统、硬件安全等。他于2013年获得美国伊利诺伊大学香槟分校博士学位,并获得W.J Poppelbaum Memorial Award。先后在南加州大学和普渡大学任教,获得美国国家自然科学基金Career Award等多项资助,并获得首届北美华人计算机协会新星奖。在国际顶级会议和期刊上发表多篇论文,进入所有四个计算机体系结构顶级会议(ISCA, ASPLOS, MICRO, HPCA) “名人堂” (Hall of Fame)。
报告题目:图挖掘的CPU加速体系结构和系统
报告摘要:由于摩尔定律的变缓和功耗等技术限制,未来计算机系统需要领域定制的软硬件系统的设计,跨越算法、软硬件系统和新型硬件技术的“垂直”整合至关重要。在体系结构层面,本讲座介绍一个加速图挖掘的CPU的指令集扩展和相应体系结构设计,其核心思想是通过CPU指令集和体系结构的扩展支持稀疏数据的移动和计算。在系统层面,介绍一个分布式图挖掘执行引擎,通过可以表达图挖掘算法并能在系统层面有效执行的原语有效实现算法和系统的协同设计。利用本原语构建的分布式执行系统有效支持远程数据复用和计算通信交叠,和当前系统相比性能大大提高。
罗国杰
北京大学
罗国杰是北京大学计算机学院、北京大学高能效计算与应用中心长聘副教授,国家重大人才工程青年学者。曾获2013年ACM/SIGDA杰出博士论文奖,2017年和2023年两次获ASP-DAC十年最具影响力论文奖、2024年GLSVLSI最佳论文奖。他担任CCF容错计算专委会、CCF集成电路设计专委会的常务委员、IEEE/CEDA北京分会主席、学术期刊ACM/TODAES编委成员。他的研究兴趣包括新型可重构计算和设计自动化方法。
报告题目:现代可重构计算架构的编译与映射问题
报告摘要:随着数据处理需求的日益增长和复杂约束的出现,可重构计算已经成为一种有效的解决方案。然而,现代可重构计算架构的演变,对性能预测、编译映射和程序变换优化等方面带来了新的挑战。本次报告将介绍几个典型问题,包括:ACAP架构性能的高效建模方案、空间数据流算法的路由拥塞和映射问题,以及针对粗粒度可重构阵列的代码变换优化问题。首先,我们将介绍ACAP架构的AI引擎性能建模问题,讨论基于双层图表示学习的架构性能建模技术,实现高准确性和高效率的性能预测。然后,我们将描述ACAP架构的映射问题,并提出一种兼顾硬件和计算特性,解决ACAP路由拥塞的映射方案。最后,我们将介绍针对ACAP映射的高效程序变换优化框架。上述技术都是为了应对可重构架构的持续演化,利用深度学习方法加速综合和编译工具研发的例子。
李超
上海交通大学
李超,上海交通大学教授,博士生导师,CCF杰出会员,研究领域为高性能高能效的可扩展计算机体系结构。CCF体系结构专委会副主任,IEEE Transactions on Computer副主编(AEIC)和领域首席编委。主持国家自然科学基金委优秀青年科学基金、科技创新2030重大项目课题等项目。在TC、TPDS、TACO、CSUR、ISCA、MICRO、HPCA、RTSS、SC、VLDB等在内的顶尖期刊和会议上发表论文130余篇,荣获最佳/焦点论文奖5次, 提名奖4次;授权国内外发明专利30余项, 成果获教育部科技进步奖一等奖1次(排名第七)。获得IEEE TCSC“可扩展计算早期职业成就奖”, 上海市“青年科技启明星计划”, 全国高校计算机专业优秀教师奖励计划,以及CCF“分布式计算与系统青年创新先锋”等荣誉。
报告题目:应用感知的高性能远内存访问优化
报告摘要:随着应用处理数据量的急速增长,数据中心内存资源日益紧张。最近,分离式内存架构允许计算节点上的任务灵活访问本地内存和远端内存数据,将数据卸载到一个“远内存”空间,并按需从远内存空间加载至本地。然而,现有的远内存系统不够高效。一方面,现有的远内存架构不支持多个访问通路,因此数据吞吐低、缺乏并行性。另一方面,现有的远内存系统不支持智能化的访问通路控制,不能发挥异构远内存设备的性能优势。此次报告旨在汇报我们近期在应用感知的高性能远内存系统方面的一些阶段性成果。
刘伟峰
中国石油大学
刘伟峰,中国石油大学(北京)教授、博士生导师、欧盟玛丽居里学者,2002年和2006年于中国石油大学(北京)计算机系获学士与硕士学位;2006年至2012年在中国石化石油勘探开发研究院从事高性能地球物理算法研究;2016年于丹麦哥本哈根大学获计算科学博士学位。他的主要研究方向为高性能数值线性代数,其中尤其关注稀疏矩阵的领域专用架构、数据结构、并行与分布式算法和解法器数学软件。他的研究工作发表于SC、PPoPP、ASPLOS、DAC、ICS、IPDPS、ICPP和TPDS等重要国际会议和期刊,其中开源稀疏直接法解法器PanguLU获得了SC 2023最佳论文奖。他担任了SC、PPoPP、ICS、IPDPS和ICPP等会议的程序委员会委员和TPDS等期刊的审稿人。他是CCF高性能计算专业委员会委员、IEEE高级会员、CCF高级会员,以及ACM和SIAM会员。
报告题目:稀疏矩阵计算中的访存问题
报告摘要:稀疏矩阵计算是数值线性代数中的基本操作,也是现代科学与工程计算和深度学习计算中最重要的共性模式之一。在计算能力日益强大的现代处理器上,稀疏矩阵计算的存储结构变成了更为重要的挑战之一。随着待处理问题规模的日渐扩大,有效回应这些挑战就显得更为迫切。本次报告将从稀疏基础线性代数子程序的计算模式开始,探讨如何降低存储稀疏数据的空间成本,进而介绍如何利用稀疏分块数据结构减少随机访存和提高数据局部性,最后对PanguLU等稀疏直接法解法器中的访存优化设计进行讨论。
李秀红
北京大学
李秀红,北京大学大数据分析与应用技术国家工程实验室助理研究员,2014年本科毕业于北京大学微电子系,2019年博士毕业于北京大学计算机科学与技术系,2020年3月至2021年7月在香港中文大学做博士后研究。曾担任科技部2030“新一代人工智能”重大项目课题负责人,在ASPLOS、PPoPP、ISCA、MICRO、HPCA、MLSys、ICML、TC等相关领域国际顶级期刊会议发表论文20余篇,相关研究成果曾获得ASPLOS会议最佳论文和PPoPP、ASP-DAC会议最佳论文提名。
报告题目:基于通信切分的大模型训练计算和通信重叠优化技术
报告摘要:针对大规模模型训练过程中巨大的通信开销,进行通信-计算覆盖优化至关重要。我们通过通信切分和重叠调度两个部分来展开跨层次优化。针对“通信是负载在设备群上的映射变换”这一核心抽象,文章提出了通信原语(primitive),通信群组(group),通信负载(workload)这三个切分维度。根据这三个维度构造出全面并且可以系统化探索的切分空间。根据模型训练任务的层级特点,在调度模块中任务被分成算子级,层级,模型级的不同粒度的调度层。在算子级别针对前向layer内部的通信算子进行贪心的局部调度。在层级别动态地利用反向layer内部自带的算子重叠空间。在模型层级调度micro batch计算以求最大的通信计算重叠。针对多种不同分布式并行配置下,对于流行大模型可以提升45%的训练性能。
版权所有:中国计算机学会技术支持邮箱:conf_support@ccf.org.cn