随着ChatGPT、Sora等人工智能现象级应用的出现,通用AI进入了大模型时代。大模型的训练和推理对高性能存储系统提出了巨大需求和新的挑战,为了应对这些挑战,众多新型存储技术和有针对性的优化方案应运而生。为此,本论坛围绕大模型存储系统展开讨论,探索新型大模型应用模式、新型存算架构以及面向大模型的存储优化方案等多个技术领域的趋势和最新进展,提供学术和技术交流平台,促进交叉合作,联合创新。论坛邀请近年来具有代表性成果的杰出学者和头部企业技术负责人进行分享,共同促进大模型存储系统领域的发展和进步。
何水兵
浙江大学
何水兵,浙江大学计算机学院研究员,之江实验室副主任和浙江省大数据智能计算重点实验室副主任。主要从事智能计算、存储系统、计算机体系结构等方面研究工作。CCF第十三届全国会员代表、CCF杰出会员、CCF信息存储技术专委常务委员、CCF体系结构专委常务委员、北京智源青源会会员、人工智能学会会员。担任CCF A类国际顶级期刊IEEE-TC编委、IEEE-TPDS编委、CCF-THPC编辑,获2020年IEEE-TPDS优秀编辑奖。担任第17届国际网络结构存储会议NAS2024程序委员会主席和第26届中国计算机系统大会ChinaSys2024大会主席。主持国家重点研发计划课题、国家自然科学基金、浙江省重大项目和企业委托的横向课题20多项,积极推动产学研结合。发表高水平学术论文近100篇,包括ASPLOS、MICRO、HPCA、SC、EuroSys、ATC、TOCS、TC、TPDS和TOS等CCF推荐A类论文30多篇。担任ICDCS、IPDPS、ICPP、CLUSTER等国际会议程序委员。授权发明专利20多项。获2024年中国计算机系统大会ChinaSys最佳海报奖、2023年全国信息存储大会最受欢迎优博论文奖、2008年国际研讨会SPEED最佳论文奖等。
阮若夷
蚂蚁集团
阮若夷,蚂蚁集团资深专家,存储负责人,Ray 中文社区创始人。从事大数据系统,分布式系统和计算、存储数据库领域相关工作十五年。
舒继武
清华大学
舒继武,清华大学长聘教授,闽江学院院长,国家杰出青年基金获得者,教育部“长江学者”特聘教授,IEEE Fellow,中国计算机学会(CCF)会士,兼任CCF理事、北京信息灾备技术产业联盟副理事长等,曾任CCF信息存储专委会主任等;主要研究信息存储系统、智能存储系统、数据存储可靠性与安全等。负责承担了国家重点研发、863重大专项、863、973和国家自然科学重点基金等项目或课题;主持研制出海量存储网络系统TH-MSNS、软硬件协同闪存存储系统TH-SSS、分布式持久性内存存储系统TH-DPMS、智能存算一体系统TH-iSSD;成果发表在CCF推荐的A类国际会议FAST、SOSP、OSDI、USENIX ATC、EuroSys、ASPLOS、MICRO、ISCA、HPCA、SC、SIGMOD等和A类国际期刊上百余篇;获国家科技进步二等奖和国家技术发明二等奖各1次、省部级一等奖5次,获华为首届“奥林帕斯”奖等。
报告题目:面向大模型计算的高效存储技术
报告摘要:大模型在文本与视觉处理等复杂业务中表现优异,受到工业界和学术界的广泛关注。大模型计算(即训练与推理)高度依赖GPU的算力,然而,GPU显存容量有限且属于易失性存储介质,难以满足大模型在训推过程中对存储容量和数据容错的需求。本报告将从存储容量和数据容错两方面分别探讨面向大模型智能计算的数据存储技术。在存储容量方面,首先,本报告将分析大模型训推过程中的显存管理机制,并讨论如何高效管理显存资源、减少显存碎片,以优化存储系统性能,提升大模型的训推效率;其次,本报告讨论如何利用CPU内存、SSD等异构存储介质,扩充GPU显存容量,以应对大模型训推中的庞大存储容量需求;第三,大模型训推中的模型参数与KV cache等数据的语义信息具有稀疏特征,本报告将阐述如何利用这些语义信息,对训推中的数据进行高效压缩,从而降低存储容量需求。在数据容错方面,首先,本报告将介绍如何使用异构存储介质保存大模型训练时GPU显存中的模型数据检查点,并探讨如何避免检查点写入时数据传输造成的计算阻塞;此外,在故障发生后,集群内GPU数量与拓扑结构发生改变,本报告将阐述如何基于检查点对GPU集群重新配置,以恢复训练任务。
吴非
华中科技大学教授
吴非,华中科技大学教授,中国计算机行业协会存储与安全专委会副秘书长,信息存储专委会委员。先后在美国CMU、IBM公司做访问学者。曾获省科技进步一等奖、技术发明二等奖、军队科学技术进步二等奖。主持包括国基金、国家重点研发等项目30余项。在包括FAST、DAC、ASPLOS、TC、ToS、TCAD等国际一流期刊和会议上发表存储领域文章70余篇,申请发明专利50余项,软件著作权6项,是TC、ToS、TCAD、TODAES、TVLSI等国际期刊的特邀评审人,担任CODES-ISSS 2021-2024、ICCAD 2024、NAS 2017-2024、HPBD&IS 2019-2024等会议的程序委员会委员。
报告题目:AquaPipe如何采用动态细粒度流水大幅提高LLM性能?
报告摘要:基于近似最近邻搜索算法(ANNS)可有效提高大型语言模型(LLM)的生成质量,该方法被称为检索增强生成(RAG)技术。随着知识检索数据集数的快速增长,内存存储空间不足,基于SSD的ANNS成为主流,导致RAG系统的响应延迟大。本文提出一种AquaPipe方法,在基于SSD的ANNS与LLM的预填充过程采用动态细粒度流水,可将RAG的响应延迟降低1.3-2.2倍,有效提高LLM的性能。
曾令仿
之江实验室
曾令仿博士,之江实验室研究员,博导。先后入选浙江省科技创新领军人才,国家级优秀人才。目前研究领域为智能计算的系统与架构,研究方向为人工智能芯片,存算一体芯片,数据隐私保护,智算集群系统。中国计算机学会(CCF)第十三届理事(学术类),CCF杰出会员和CCF杰出演讲者。浙江省人工智能学会常务理事。ACM和IEEE会员。曾在德国美因茨大学、新加坡国立大学工作六年。相关成果在CCF推荐的旗舰国际会议和期刊,例如,FAST、SC、SIGMOD、TC、TPDS、ToS、TIFS、TDSC、TKDE等发表100余篇;完成标准10项,授权中国发明专利70余项;获IEEE/ACM超级计算机大会(SC)举办的SC06高性能存储挑战赛Finalist Award,2011年获湖北省技术发明一等奖,2018年获IEEE UIC最佳论文奖,2021年获浙江省科技进步二等奖,2022年获世界互联网领先科技成果发布。现主持(或作为项目/课题执行负责人)科技部、工信部、国家基金委等国家级项目多项。
报告题目:文件系统的演变:从百花齐放到“统一”
报告摘要:文件系统发展初期,通常用于独立的计算机或本地网络环境,并采用单一的结构(如FAT、NTFS、Ext2和XFS等),当前,已从管理单一类型的存储设备(如磁盘)演变到跨不同存储设备(如内存、闪存等)和网络的能力,形成分布式文件系统(如NFS、AFS、Lustre和Ceph等),可以跨多个服务器(设备)和位置管理数据,并随着云计算发展甚至扩展到不同地理区域。这些文件系统极大改善了数据共享和协作,提升了数据存储效率,但在处理大规模数据和复杂数据管理任务时仍存在局限性,如自动化能力偏弱,能效低,性能、可靠性、可用性与成本难平衡等。报告将探讨统一文件系统(Unified File System,UFS),UFS通过提供单一命名空间和一致的接口来管理各种类型、各个区域的存储资源,通过人工智能辅助并提供存储服务质量保证来满足各种应用数据访问和管理需求,适应当前和未来数据处理追求的数据全生命周期每比特极致性价比目标
刘键
蚂蚁集团
刘键,毕业于浙江大学计算机专业,在分布式计算、存储系统、以及调度和弹性领域有着10年以上的工作经验。当前在蚂蚁集团负责AI缓存加速等多个产品的研发和架构工作,相关的产品覆盖多个AI和大数据的存储场景,能够在多云环境提供百亿文件和PB级数据的高性能IO服务。
报告题目:蚂蚁大模型存储实践
报告摘要:当前随着大模型技术的快速发展,训练的数据规模越来越大,数据的模态也越来越复杂。比如在多模态场景中,单次训练的样本图片数量可能达到十亿甚至百亿级别并且需要同时处理视频、图片、音频、文本等多种模态数据。为了提高训练效率,减少训练过程中因数据IO开销导致的GPU资源浪费,存储系统需要能够支撑海量文件的元数据管理并具备扩展能力。除此之外,训练任务运行时checkpoint写入频率也在逐步加快,从天到分钟间隔,对于千亿以上参数规模的训练任务每秒写入吞吐会达到TB级数据。这些对当前的存储产品都是一个巨大挑战。为了解决这些问题,蚂蚁构建了一套大模型缓存加速系统,采用近端加速以及面向AI数据特性的缓存策略,从数据预处理到样本数据读取和模型加载,再到运行时checkpoint写入,为各类型大模型训练任务提供端、高性能和低成本的存储解决方案。除了数据链路,为了适应当前多AI算力中心的趋势,PCache还采用云原生的架构,提高了建站效率和故障时的高可用性;以及通过云原生的全增量一体数据同步系统提高了各AI站点之间的数据迁移效率,为训练任务的算力调度提供了基础保障。
程力
腾讯
程力,腾讯云技术专家,就职于腾讯云对象存储团队,同时是开源社区 Apache Hadoop Committer 和 Apache Ozone PMC,具备10年存储研发经验,曾任职于AWS S3和华为存储团队。程力在腾讯云主要负责腾讯云数据湖存储 GooseFS 的设计研发。
报告题目:腾讯云AIGC大模型训练存储加速
报告摘要:腾讯云存储GooseFS作为腾讯AIGC存储核心产品,承载Tb级别带宽能力和百亿文件规模,助力腾讯云上大模型客户实现AIGC存储方案优化。
版权所有:中国计算机学会技术支持邮箱:conf_support@ccf.org.cn