大会论坛:大模型训练和并行处理

发布时间: 2024.11.26
一、论坛概要

二、论坛主席

王毅

深圳大学


王毅,深圳大学计算机与软件学院教授、博士生导师。国家优秀青年基金、广东省杰出青年基金、深圳市杰出青年基金获得者。CCF杰出会员,CCF信息存储专委会执行委员、CCF体系结构专委会秘书长(2024-2027)。广东省普及型高性能计算机重点实验室常务副主任。主要研究领域包括计算机存储系统、智能芯片与智能计算系统。                            


毛睿

深圳大学


毛睿,长江特岗学者,深圳大学特聘教授,主要研究领域通用大数据处理;中国科学技术大学计算机学士和硕士、美国得克萨斯大学奥斯汀分校统计硕士和计算机博士、曾任甲骨文美国公司高级工程师;现任大数据系统计算技术国家工程实验室副主任,深圳计算科学研究院执行院长;提出了应对多样性挑战的大数据泛构模式,建立了基于度量空间的通用大数据管理分析理论框架,获7项国家、省部级、或重要行业组织教学/科研奖励。                            

三、论坛讲者及报告

钱学海

清华大学


钱学海是清华大学计算机系长聘教授,研究领域报告并行计算机体系结构、面向领域的体系结构和系统、硬件安全等。他于2013年获得美国伊利诺伊大学香槟分校博士学位,并获得W.J Poppelbaum Memorial Award。先后在南加州大学和普渡大学任教,获得美国国家自然科学基金Career Award等多项资助,并获得首届北美华人计算机协会新星奖。在国际顶级会议和期刊上发表多篇论文,进入所有四个计算机体系结构顶级会议(ISCA, ASPLOS, MICRO, HPCA) “名人堂” (Hall of Fame)。


报告题目:图神经网络训练系统


报告摘要由于摩尔定律的变缓和功耗等技术限制,未来计算机系统需要领域定制的软硬件系统的设计,跨越算法、软硬件系统和新型硬件技术的“垂直”整合至关重要。本讲座首先介绍一个分布式图神经网络训练系统,利用层级并行大幅减少远程通信,同时提出若干训练技术保证模型收敛。接着讨论通过图的结构来调整训练传播数据精度的思想来减少数据移动,提高训练性能。


郑伟诗

中山大学


郑伟诗博士,中山大学计算机学院教授/副院长、国家级人才、英国皇家学会牛顿高级学者,现任教育部机器智能与先进计算重点实验室主任。他长期研究协同与交互分析理论与方法,解决人体建模和机器人行为的视觉计算问题。担任IEEE T-PAMI等期刊的编委。主持承担国家级重点类项目和人才项目5项、以及广东省自然科学基金委卓越青年团队(负责人)项目等。获国家教学和省部级科技奖励6项。


报告题目:微记忆下的连续图像识别


报告摘要一直以来,我们希望深度学习模型能不断地针对新问题、新类别、新数据等展开持续性学习。然而,由于灾难性遗忘问题的存在,当深度学习模型针对新任务做优化后,原有任务的分类等性能产生严重的下降。为此,近年以来,不少新颖的连续学习算法被提出。在连续学习上,我们做了些工作,主要是如何利用无标注数据解决小记忆下的连续学习建模问题和如何利用提示建模解决零记忆环境下快速适配下游任务的连续学习问题。我们将对这些近期的探索做介绍,并期望与大家一起讨论。


李士刚

北京邮电大学


李士刚,北京邮电大学,计算机学院(国家示范性软件学院),“拔尖人才”教授,博士生导师,CCF、ACM及IEEE高级会员,获评CCF高性能计算“卓越青年”,入选国家高层次青年人才计划。深耕高性能计算、深度学习系统、异构计算领域,主持国家级科研项目及课题多项,在SC、PPoPP、ICS、TPDS、NSDI等重要会议及期刊上发表论文60余篇,解决或缓解深度学习系统及大规模并行算法等高效并行可扩展难、通信瓶颈、计算瓶颈等关键问题。多次获得顶级学术会议最佳论文提名(SC'23、SC'22、SC'21、PPoPP'20、HPDC'13), 获MLSys'21杰出论文奖,SC'22最佳作品复现奖,CACM Research Highlights。担任SC、PPoPP等权威会议TPC委员40余次,ICS'18研讨会主席,IISWC'20出版主席,PPoPP'23宣传主席,HPC China'23&24 TPC Track主席,CCF THPC青年编委,Cluster Computing编委。


报告题目:大模型高效可扩展并行策略


报告摘要大模型的并行策略越来越复杂,这给系统开发及性能优化人员带来沉重负担。为应对上述挑战,提出一种深度学习自动分布式并行框架AutoDDL。相比已有框架,AutoDDL可以描述更高维度并行算法,从而拓宽了并行策略空间,可实现端到端通信最优并行策略的自动搜索,使大模型获得更好的并行可扩展性。针对大模型流水线并行,提出一种融合二阶优化方法的流水线并行方案PipeFisher。该方案通过在流水线空泡中自动填充二阶计算负载,提升模型收敛速率及GPU硬件利用率,可显著降低大模型端到端训练时间。


唐博

南方科技大学


唐博,南方科技大学计算机科学与工程系副教授,博士生导师,国自然优秀青年基金获得者。研究方向为数据库系统和大数据技术,研究成果一贯发表于数据工程与数据管理顶尖国际会议和期刊上(如SIGMOD,PVLDB,TKDE等),研发技术广发应用于Microsoft办公软件Excel和开源列式存储数据库MonetDB系统中。他曾三次获得华为火花奖以及三次率领团队获得CCF-A类会议专业竞赛全球冠军(SIGMOD2021,NeurIPS2021和SIGMOD2024)。


报告题目:大模型时代的数字基座:向量数据库存储与检索技术研究


报告摘要随着大模型技术的发展,向量数据库作为大模型的数据基座被应用于大模型的方方面面,然而如何高效的管理超大规模的向量数据(如百亿千维)依然是学术界和工业届共同面对的技术挑战。在本次报告中,我将结合我团队在向量数据库系统方向的近期研究简要介绍大规模向量数据库索引构建与存储、图索引实时更新以及向量数据库查询加速等研究方向上的进展,最后总结大模型时代数字基座面临的关键挑战。


李夏青

北京交通大学


李夏青,北京交通大学副教授,博士毕业于清华大学计算机系高性能计算研究所,现就职于北京交通大学计算机学院交通大数据与人工智能教育部重点实验室。近年主要研究方向为高性能深度学习计算系统、计算机体系结构,其相关研究成果均已发表在本领域顶级国际会议和期刊上,如ISCA、ASPLOS、MICRO、DAC、IEEE Trans. on Parallel and Distributed Systems(TPDS)、SCIS、ICPP、ICCAD、ICML和ICLR等。共发表CCF A类国际会议和期刊论文13篇,并获得ACM SIGHPC CHINA新星奖、ACM SIGHPC CHINA优秀博士论文奖和MICRO'22最佳论文Runner-up奖等多个奖项。他曾参与国家重点研发计划、973、863和国家自然基金等项目,并主持国家自然科学基金委面上项目一项。现担任IEEE ICPADS、HPC China和Super Computing(SC)的程序委员会成员,以及IEEE TPDS、IEEE TCC、JPDC、TMC、SCIENCE CHINA和Super Computing(SC)等期刊和会议的审稿人。同时,他还担任了IEEE ICPADS 2023的程序分会主席。


报告题目:面向超参数调优的并行加速方法


报告摘要人工智能的成功离不开其模型超参数有效的调优。基于序列模型优化(SMBO)调优是学术界和工业 界采用的主流自动超参数调优方法。然而,其并行扩展性与大数据-大模型不断增长的复杂性之间存在较大差距,严重制约了该领域的快速发展和应用。针对该问题,我们提出了一种快速、可扩展且通用的并行加速方法,旨在保证较高推理精度的前提下,并行加速大型深度学习/机器学习模型的超参数自动调优速度。此外,为在调优质量和计算成本之间取得平衡,我们进一步提出一种全新的并行调优计算资源动态调度策略,包括动态消除算法、子空间递归划分和后验信息共享等关键技术。最终,我们将该方法集成到六种SOTA调优方法和工具中。实验结果表明,该方法在能够保证模型高精度的同时,显著提高自动调优速度(最高可达80倍),从而使自动超参数调优技术能够应用于实际大规模深度学习模型的自动设计当中。