随着大模型的广泛应用,存算融合技术成为关键的研究领域。本论坛将深入探讨存算融合技术的最新进展、挑战与应用,旨在探索如何通过优化存储与计算的协同来提升大型模型的效率与性能。本论坛邀请了五位长期从事计算机存算加速和体系结构优化的专家,围绕大模型存算加速、数据流体系架构优化、Cache Miss静态分析、近数据计算以及模型训练优化等关键技术,共同探讨解决方案,推动存算融合技术在大模型领域的发展与应用。
沈志荣
厦门大学
沈志荣,厦门大学信息学院副教授(入选“南强青年拔尖人才计划”),研究方向为大数据/云存储系统、数据中心和新型非易失存储介质的数据存储可靠性,在IEEE TC、TPDS、TDSC和HPCA、USENIX ATC、ICDE、INFOCOM、ICDCS、IPDPS、DSN、SRDS等CCF A/B类期刊会议发表论文50多篇,主持国家重点研发计划课题、国家自然科学基金重大研究计划培育项目、国家自然科学基金面上项目和青年项目等多项课题,获得IEEE Smart Computing Early Career Award(2023年), ACM SIGCSE中国新星奖(2022年),SRDS'20最佳论文奖(CCF-B类会议)、SRDS'15最佳论文提名奖(CCF-B类会议)等各类学术奖项,入选“香江学者”计划(2017年)、福建省青年拔尖人才(2023年)
高聪明
厦门大学
高聪明,厦门大学信息学院副教授,博士生导师,研究方向主要涉及存储系统、体系结构、存算一体等。在国际顶级会议期刊MICRO、HPCA、FAST、DAC、IEEE TPDS、IEEE TC、ACM TOS等发表论文40余篇,其中,CCF-A类论文20篇,获得IEEE NVMSA最佳论文奖,ACM SIGCSE中国新星奖,“阿里云-CCF信息存储专委会”优秀论文奖,厦门大学“南强青年拔尖人才计划”等,主持国家自然科学基金项目、中国博士后科学基金面上项目和特别资助项目、企业合作项目等项目。
陈晓明
中国科学院计算技术研究所
陈晓明,中国科学院计算技术研究所副研究员、博士生导师。分别于2009和2014年从清华大学电子工程系获得学士、博士学位。获得基金委优青、中国科学院青促会优秀会员、中国科协青年人才托举工程等人才项目。研究方向包括集成电路设计自动化和存算一体体系结构,研究成果落地于国产商业EDA软件和国内芯片企业,发表论文120余篇、专著1本,包括DAC、MICRO、HPCA、ASPLOS、IEEE TCAD、IEEE TC等。获得ASP-DAC 2022最佳论文奖、首届达摩院青橙奖、2016年欧洲设计与自动化协会(EDAA)杰出博士论文奖。
报告题目:基于存算一体的大模型加速器架构设计
报告摘要:大模型的计算量和数据量给计算系统带来了严峻的算力和存储挑战。存算一体是有望克服这些挑战的极具潜力的技术路线之一。本报告将介绍我们利用存算一体技术构建大模型加速器方面的一些初步尝试。大模型的不同算子呈现不同的计算和访存特性,针对该问题,本报告主要探讨的重点是如何集成多种不同的计算模式(存内计算、近存计算、传统GPU等),构建异构加速系统,对大模型的不同算子进行加速。仿真结果表明了异构存算一体加速系统对大模型的巨大潜力。
冷静文
上海交通大学
冷静文,上海交通大学电子信息与电气工程学院教授,博士生导师,目前任职院长助理。主要研究方向为面向人工智能的新型计算系统的设计以及性能、能效、可靠性优化,主持和参与了多项自然科学基金以及龙头企业横向项目。在国际一流的会议和期刊上发表了四十多篇论文和相关国内国际专利,获得过DAC, PACT等多个国际会议的最佳论文提名奖,2022年度IEEE体系结构年度最佳论文优胜奖(IEEE Micro Top Picks Hornorable Mention);也获得了2024年华为奥林帕斯奖和2020年阿里巴巴达摩院青橙奖等公司公益奖项。
报告题目:面向大模型的数据流体系架构研究
报告摘要:大模型的算力需求两年内增长了240倍,远超遵循摩尔定律的芯片制程所带来的提升。因此,计算架构的演进以及计算数值格式的革新成为了计算效率提升的关键。本次报告将分析GPU架构上大模型加速的主要优劣势,并分享研究团队在数据流体系架构上的一些进展。数据流是天然的数据驱动并行执行模型,能够有效地驱动大量计算和存储资源,有望成为新一代的大模型加速引擎。
刘楚波
湖南大学
刘楚波,湖南大学教授,高性能计算应用软件技术教育部工程研究中心副主任。依托国家超级计算长沙中心等平台长期围绕高性能计算与体系结构前沿开展研究。参与新一代天河超级计算系统研制,带领团队开展贯穿上层应用、中间层软件、底层体系结构的千万核以上并行调度方法与技术研究,以及系统平台的实现。在TC、TPDS、ISCA、DAC等顶级期刊会议发表论文40余篇。主持国家重点研发计划青年科学家项目、国家自然科学基金面上与青年项目,以及华为等公司合作项目多项。成果获国家科技进步二等奖(排10/2023)、湖南省自然科学一等奖(排2/2020)、CCF科技进步特等奖(排1/2022)等。
报告题目:一种高效、灵活的Cache miss静态分析框架
报告摘要:Cache miss是衡量应用程序执行性能的重要指标之一。现有Cache miss分析方法主要分为动态采样(如perf)和静态分析(如heptane)。前者受硬件和应用程序执行开销限制,后者有执行预测路径不准,应用程序状态空间大,静态开销分析大等难题。成果瞄准Cache miss静态分析难点,从输入感知路径预测,结合操作系统进程空间结构信息,构建了一种高效、灵活的Cache miss静态分析框架。
王颖
中科院计算所
王颖,中科院计算所研究员,CCF集成电路设计专委秘书长。主要研究方向包括集成电路设计自动化,物端人工智能系统,高能效芯片设计与存储系统设计,主持基金委优青,科技部重点研发等项目。共发表100余篇集成电路与系统结构领域CCF-A类论文。曾获CCF青年科学家奖,CCF技术发明一等奖,北京市与电子协会技术发明奖等奖项,CCF集成电路early career award,华为奥林巴斯先锋奖,IEEE/ACM DAC40岁以下创新奖, 2018年中科院科技成果转化特等奖。曾获IEEE Trans. on Computer年度最佳论文,IEEE测试与容错Top Picks,ICCD,GLSVLSI,ITC-ASIA最佳论文奖以及ASPDAC最佳论文提名。
报告题目:近数据计算与存算一体:从KB到P级数据处理
报告摘要:存算一体与近数据计算在AI时代成为被寄予厚望的新型体系结构以应对存储墙与带宽强问题,无论是基于新型非易失器件的存算一体,基于SRAM与DRAM近存计算架构,还是基于flash的近数据计算系统都已在学术界与工业界成为研究热点,本报告将介绍差异化应用场景下不同存算或近数据计算架构方案的优势以及融合机遇,并着重讨论大模型时代下不同存算架构如何利用异构计算与先进集成技术应对系统存储与互联资源的爆炸式增长。
杨海龙
北京航空航天大学
杨海龙,北京航空航天大学计算机学院教授,院长助理。国家优秀青年科学基金获得者,国家重点研发计划项目负责人。主要研究方向为高性能计算、性能调优工具、编译优化技术、智能计算系统等。目前已在SC、ASPLOS、PPoPP、TPDS、TC等国际会议和期刊上发表多篇学术论文,TC论文获评IEEE CS亮点论文。担任CLUSTER21体系结构领域共同主席,THPC期刊编委。担任北航本科生超算队教练,指导学生团队多次获得国内外赛事奖项。指导学生获得CCF体系结构专委优秀博士学位论文奖、ACM SIGHPC优秀博士学位论文奖、北京市本科优秀毕设论文奖。
报告题目:精度可复现与输入可感知的模型训练优化技术
报告摘要:随时深度学习模型参数规模不断增长,对训练成本和训练资源造成巨大压力。模型弹性训练技术通过利用云计算资源可以降低训练成本,但会导致模型精度难以复现;此外,模型检查点机制支持在有限的显存资源下开展模型训练,但会导致训练性能额外损失。本报告重点探讨精度可复现的模型弹性训练技术,以及输入可感知的模型检查点技术,实现在异构资源上的精度无损弹性训练,以及比现有检查点机制更高的训练性能。
版权所有:中国计算机学会技术支持邮箱:conf_support@ccf.org.cn