随着人工智能技术的飞速发展,深度学习大模型在文本、图像、视频等数据的理解和生成任务方面展现出强大的能力。这些智能模型的诞生,离不开算力的发展。得益于芯片技术的发展,大模型能力通过不断扩大的规模训练实现了大幅提升。计算规模的提升需要在软硬件技术上取得突破,其中,增强智能计算系统基础软件尤为重要。本论坛聚焦此问题,探讨智能计算系统和基础软件如何有效支撑人工智能应用。论坛将研讨最新的技术、方法与实践,包括但不限于可扩展人工智能基础软件、智能超算和面向大模型训练和推理优化等关键主题。本论坛邀请学术界和企业界知名专家和学者共同探讨并分享他们的见解与经验,以推动智能计算系统的进一步发展。
翟季冬
清华大学
翟季冬,清华大学计算机系长聘教授,博士生导师。国家杰出青年科学基金获得者,国家重点研发计划项目负责人。清华大学计算机系高性能所副所长。CCF高性能计算专委副主任、CCF杰出会员、ACM中国高性能计算专家委员会秘书长。主要研究领域包括并行计算、编程模型与编译优化。在并行计算与系统领域顶级会议和期刊发表论文100余篇,出版专著1部。研究成果获IEEE TPDS 2021最佳论文奖、IEEE CLUSTER 2021最佳论文奖、ACM ICS 2021最佳学生论文奖等。担任NPC 2018程序委员会主席、IEEE CLUSTER 2021领域主席,IEEE Transactions on Computers等多个国际学术期刊编委。担任清华大学学生超算团队教练,指导的团队十四次获得世界冠军。获教育部科技进步一等奖、中国计算机学会自然科学一等奖、CCF-IEEE CS青年科学家奖。
陆游游
清华大学
陆游游,清华大学计算机系副教授、博士生导师。主要研究方向是计算机存储系统,在FAST、OSDI、SOSP等国际顶级会议上发表论文50余篇,曾获得NVMSA’14最佳论文奖、MSST’15最佳论文提名奖、SIGMOD’23研究亮点论文奖。研制高性能文件系统SuperFS,部署于鹏城云脑II,蝉联世界超算存储IO500榜单第一名(目前仍位居第一)。担任FAST、USENIX ATC、EuroSys等国际会议程序委员会委员。曾入选CCF优博、首届中国科协青托工程等计划,获国家自然科学基金重点项目、优青项目和国家重点研发计划青年科学家项目资助,获省部级奖两项。
姚骏
华为诺亚方舟实验室
姚骏,华为诺亚方舟实验室主任。本硕就读于清华,博士毕业于日本京都大学。在人工智能和系统领域从业20年,现为华为人工智能研究领域主管。2009年至2014担任日本奈良先端科学技术大学院准教授,从事面向深度学习等算法的AI异构系统的研究。在AI系统等领域有学术论文15,专利10,曾获得北京市科技进步奖二等。2014年加入华为,先后从事人工智能平台、自动驾驶系统、学习优化、计算AI等方向的研究。2017-2021年担任华为伦敦研究所所长,对国内、国际的AI产业链进展情况,人工智能治理等有深刻理解。项目团队于2021年4月完成业界首个中文2000亿模型的训练,达成了首个基于国产全栈式AI系统和平台的超大规模预训练模型的突破。2024年6月发布盘古5.0,负责其中的基础大模型。
报告题目:盘古大模型5.0高效训推关键技术
报告摘要:华为诺亚方舟实验室主任姚骏从数据科学、大集群训练和极致推理三个方面介绍盘古大模型5.0在昇腾集群训练和推理的关键技术:
- 数据科学:面向自然数据中偏少的长序列、复杂推理数据,探索以弱模型辅助强模型送代式的数据合成方法,保证合成数据有不弱于真实数据的完整性、相关性和知识性。
- 大集群训练:通过多维混合并行和计算通信并发,实现计算通信流水,解决大集群训练模型并行和数据并行的通信瓶颈,实现算力利用率大幅提升。
-极致推理:通过低比特极致压缩、跳跃预测和PD分离,实现大模型低时延高吞吐推理,解决大模型部署商业落地成本高的问题。
最后,姚骏主任将对高效训练万亿MoE模型、低精度训练、跨AZ大算力训练等未来关键技术方向展开讨论。
冷静文
上海交通大学
冷静文,上海交通大学电子信息与电气工程学院教授,博士生导师,目前任职院长助理。主要研究方向为面向人工智能的新型计算系统的设计以及性能、能效、可靠性优化,主持和参与了多项自然科学基金以及龙头企业横向项目。在国际一流的会议和期刊上发表了四十多篇论文和相关国内国际专利,获得过DAC, PACT等多个国际会议的最佳论文提名奖,2022年度IEEE体系结构年度最佳论文优胜奖(IEEE Micro Top Picks Hornorable Mention);也获得了2024年华为奥林帕斯奖和2020年阿里巴巴达摩院青橙奖等公司公益奖项。
报告题目:组件化可扩展人工智能基础软件设计
报告摘要:现代的人工智能(AI)领域发展迅速,使得其支撑软件框架需要不断地向更灵活、更高效的方向发展。本次分享将介绍课题组在AI框架的组件化扩展设计方法的研究。首先,为降低AI算子中的计算和存储需求,我们对其进行了横向扩展,引入了三个核心组件,包括低位宽算子组件、稀疏算子组件和近似检索算子组件。为了方便开发者使用这些算子,我们进一步在模型级别做了横向扩展,引入了面向神经网络分析优化的插桩接口组件、低位宽模型加速组件、以及稀疏模型加速组件。除了横向扩展现有框架的能力之外,AI与图计算的融合以及高并发AI计算等场景的出现也使得我们必须对AI框架的能力进行纵向扩展。为此,我们也在算子级和模型级分别扩展了现有AI框架的能力。总之,随着AI的发展,我们需要更加灵活和高效的框架。通过对框架进行组件化扩展,我们不仅可以满足当前的需求,还可以为未来的发展做好准备。这些组件提供了一个平台,使研究者和开发者能够针对特定问题定制和优化其解决方案。
陶鼎文
中国科学院计算所
陶鼎文,中国科学院计算所研究员、博士生导师、中国科学院大学岗位教授。曾任美国印第安纳大学终身副教授。获美国美国国家科学基金会杰出青年教授基金(NSF CAREER)、国家自然科学基金优秀青年科学基金(海外)、IEEE高性能计算杰出新人等荣誉。长期从事高性能计算、并行软件及大规模深度学习研究,在并行压缩算法和软件方面取得开创性成果。研发的浮点压缩软件被多家国际顶尖科研机构和超算中心采用,并获2021年R&D100奖。同时积极推动压缩技术在智能超算中的应用,如提出的针对多种深度学习模型(如深度学习推荐模型、混合专家模型、大语言模型等)的数据压缩技术,在不影响模型精度的前提下显著减少通信量并提升训练性能。科研成果发表在SC、PPoPP、VLDB、ICDE、EuroSys、ATC等顶级会议上。
报告题目:大模型时代的智能超算:以数据为中心的挑战及应对
报告摘要:在大模型驱动的人工智能时代,分布式并行计算已成为智能计算中心部署大模型的常态,构建面向大模型训练和推理的高性能计算系统和算力中心已上升为国家战略。然而,分布式模型计算面临诸多挑战,其中很多问题与数据密切相关。首先,深度学习训练需要进行全局通信,但全局通信的开销巨大,导致性能和可扩展性问题。其次,深度学习训练过程中需要存储大量中间数据,导致内存开销过大,而国产硬件加速器的内存容量相对有限,这会影响模型训练的规模和效率。最后,分布式训练需要加载大量数据,且数据加载需要经过全局洗牌后并行处理,这会造成数据存储和I/O的瓶颈。本报告将介绍我们为减少分布式训练通信开销而提出的压缩方法、高效内存管理技术、并行I/O加速方案,以及基于NVM的高性能KV Store技术。这些技术的结合有望帮助万卡智能超算系统有效应对大模型及海量数据带来的挑战,并提升系统整体能效。
郑祯
微软Principal Researcher
郑祯,微软Principal Researcher,负责大语言模型推理的压缩、调度及GPU Kernel优化的科研工作,持续推动大语言模型在关键业务上的高效低成本部署。加入微软之前作为阿里云机器学习平台PAI的关键成员,负责推动GPU上机器学习编译优化技术的持续演进,并带领机器学习平台的推理优化研究。博士毕业于清华大学。在ASPLOS、MICRO、OSDI、ATC、SIGMOD、VLDB等领域顶级会议发表多篇文章。
报告题目:大模型任意比特数权重量化的高效GPU支持
报告摘要:模型参数量化是解决大模型存储和带宽瓶颈的有效手段。近期的一些研究表明非二的幂比特数的量化(如FP6)可以在精度和压缩率方面取得较好的平衡。然而,现有的GPU系统不提供对这种非规则比特数量化的高效支持。以FP6 量化为例,其在 GPU 进行支持的主要挑战在于:1)非二的幂宽度的模型权重的内存访问不友好,2)权重反量化的运行时开销高。为了解决这些问题,我们设计并实现了Quant-LLM,首个高效支持任意位宽量化计算(如 5 位、6位参数量化)的基于张量核心进行计算的GPU方案。实验表明,Quant-LLM 通过FP6量化可以仅使用单个 GPU 进行 LLaMA-70b 的高效推理,一方面可以取得相对于FP16几乎无损的精度,另一方面相对于FP16可以获得1.69倍至2.65倍的推理吞吐加速。
翟季冬
清华大学
翟季冬,清华大学计算机系长聘教授,博士生导师。国家杰出青年科学基金获得者,国家重点研发计划项目负责人。清华大学计算机系高性能所副所长。CCF高性能计算专委副主任、CCF杰出会员、ACM中国高性能计算专家委员会秘书长。主要研究领域包括并行计算、编程模型与编译优化。在并行计算与系统领域顶级会议和期刊发表论文100余篇,出版专著1部。研究成果获IEEE TPDS 2021最佳论文奖、IEEE CLUSTER 2021最佳论文奖、ACM ICS 2021最佳学生论文奖等。担任NPC 2018程序委员会主席、IEEE CLUSTER 2021领域主席,IEEE Transactions on Computers等多个国际学术期刊编委。担任清华大学学生超算团队教练,指导的团队十四次获得世界冠军。获教育部科技进步一等奖、中国计算机学会自然科学一等奖、CCF-IEEE CS青年科学家奖。
报告题目:八卦炉:面向国产智能算力核心基础软件
报告摘要:随着大模型技术的不断发展,其对算力的需求也在持续增大。然而,中国在获取最先进的芯片方面面临巨大的挑战。如何充分发挥国产算力硬件性能,让国产算力易用好用,满足大模型对算力的需求具有重要意义。针对此挑战,我们在国产智能算力上开发了一系列核心基础软件。其中,在新一代国产超级计算机上,我们从编译器、算子库、并行系统和负载均衡等方面对大模型进行了深入优化,开发了“八卦炉”智能算力基础软件栈,采用“八卦炉”软件栈训练的大模型性能达到EFLOPS。
版权所有:中国计算机学会技术支持邮箱:conf_support@ccf.org.cn