演讲摘要:介绍大模型生命周期的五个环节,它们是数据获取,数据预处理,模型训练,模型微调和模型推理。数据获取中海量小文件存储对文件系统元数据管理提出挑战。数据预处理对频繁、随机小样本读取对文件系统读写提出挑战。模型训练对检查点文件读写对存储系统读写提出挑战。模型推理对模型参数和KV Cache对内存系统容量提出挑战。每个环节对算力和存储产生爆发式需求,都需要解决大数据的存储和处理问题。
讲者介绍:郑纬民,清华大学计算机系教授,中国工程院院士。长期从事高性能计算机体系结构、并行算法和系统研究。提出可扩展的存储系统结构及轻量并行的扩展机制,发展了存储系统扩展性理论与方法。在国内率先研制并成功应用集群架构高性能计算机。在国产神威太湖之光上研制的极大规模天气预报应用获得ACM Gordon Bell奖。曾获国家科技进步一等奖1项、二等奖2项、国家技术发明二等奖1 项,何梁何利科技进步奖,获得首届中国存储终身成就奖。