超大规模数据中心是承载现代AI 模型,存储系统的关键基础设施,为支持面向AI大模型时代的新型高性能智算中心,需要网络-存储-计算协同的核心架构。论坛邀请在存储网络系统享有盛誉的科研学者与一线技术专家,解读目前面向大模型场景的存储网络特征,训练和推理场景对存储集群的需求和实现方式,以及的超大规模存储网络遇到的异构设备,网存协同关键业务加速的最新进展,并着力探讨存储网络技术与未来发展趋势。
田臣
南京大学
田臣,南京大学教授,博士生导师,担任国家杰出青年科学基金、国家重点研发课题等多个负责人。田臣老师在计算机网络和分布式系统领域多个顶级学术会议和知名国际期刊上录用和发表论文100余篇。他的工作受到了国内外研究者的广泛引用和关注。研究工作获得工业界广泛应用,是华为中央研究院2020年度“最佳合作教授”唯一获奖者。
王晓亮
南京大学
王晓亮,南京大学教授,长期从事“系统软件”研究,集中在体系结构和云网络系统方面,具有丰富的实际系统部署与操作经验,曾作为微软亚洲研究院“铸星计划”学者,腾讯网络平台部研究负责人,阿里云与基础设施部门荣誉顾问,参与支持云网络、存储与计算网络的研发与部署工作。发表论文30余篇,软件著作权2篇,获得2016,2019年江苏省科技进步一等奖。
Patrick P. C. Lee
Chinese University of Hong Kong
Patrick P. C. Lee received the Ph.D. degree in Computer Science fromColumbia University in 2008. He is now a Professor of the Department of Computer Science and Engineering at the Chinese University of Hong Kong. He heads the Applied Distributed Systems Lab and is working very closely with a group of graduate students on different projects in large-scale computer systems. His research interests are in various applied/systems topics on improving the dependability of large-scale computer systems, including storage systems, distributed systems and networks, and cloud computing. He now serves as an Associate Editor in IEEE/ACM Transactions on Networking and ACM Transactions on Storage.
报告题目:Fast, Available, and Reliable In-Switch Write-Back Caching in Programmable Networks
报告摘要:Caching is a standard mechanism to satisfy high-performance access demands by keeping the frequently accessed data in fast cache memory. Recent advances in programmable networks provide new opportunities to implement scalable and load-balanced caching in programmable hardware switches in data centers. However, enabling effective in-switch caching is challenged by the strict programming rules and limited stateful memory of programmable switches. Also, real-world storage workloads are increasingly write-intensive. Write-back caching in programmable switches can absorb frequent write requests, it also necessitates reliable protection against data loss due to switch failures. In this talk, we propose FarReach, a new caching framework that supports fast, available, and reliable in-switch write-back caching in programmable networks under write-intensive workloads. Our talk will cover FarReach's design and evaluation findings and show how FarReach can be extended to multiple switches.
皮振伟
字节跳动
皮振伟,字节跳动技术专家,主要工作在计算虚拟化、存储虚拟化以及基础软件等泛操作系统方向。其开发了Redis/Valkey Over RDMA方案,相比于TCP,性能提升到200%+。另外,其开发了Virtio Crypto RSA卸载方案,HTTPS短连接性能提升300%,并担任QEMU相关子系统的维护者;在iSCSI/iSER方案中,向libiscsi/SPDK/tgt累计贡献近百个补丁;Linux内核和QEMU社区贡献者,累计贡献近百个补丁;irqtop/lsirq/blkpr/hugetop操作系统基础命令的作者;基于ebpf的tcprtt/virtiostat命令的作者;系统监控软件atop的Top 2贡献者,atophttpd软件作者。
报告题目:Redis/Valkey Over RDMA:极致的高性能KV存储
报告摘要:Redis/Valkey是业界最流行的KV存储数据库,因优越的性能、健全的文档和良好的生态,大量应用于缓存场景,在互联网应用中取得了成功。在海量的网络热点请求情况下,依然存在缓存击穿的情况;一主多从的场景下,也存在成本居高不下的问题。Redis/Valkey Over RDMA方案充分发挥了RDMA的硬件性能优势,相较于TCP,性能提升到200%+。本报告分享在Redis/Valkey事件驱动模型和流式语义情况下,基于RDMA消息语义的传输协议;以及整个生态上的最新进展和未来规划。
温涛
腾讯云存储
温涛,腾讯云存储首席技术专家,十多年分布式云存储技术和产品化经验。作为技术领头人,从事过网络、安全、存储等多个领域的技术工作。目前作为腾讯首席云存储技术专家,负责腾讯云存储的解决方案规划、设计和商业化工作。
报告题目:腾讯云数据平台:探索多域数据智能调度、治理与加速的创新路径
报告摘要:在多域网络架构的驱动下,如何实现数据在不同平台间的智能化调度、治理与加速已成为提升业务韧性的关键。本次演讲将围绕腾讯云数据平台的创新解决方案,探讨如何在大数据和AI应用场景下,通过智能调度、数据治理与数据加速,打破数据孤岛,推动数据跨域流转,为企业提供无缝衔接的跨平台数据解决方案。这一体系不仅优化了大数据与AI业务的性能,还开创了安全、智能、灵活的数据治理新模式。腾讯云数据平台以创新为引擎,助力企业在多域间突破数据边界,实现真正的“数据即业务”加速器。
高翼枭
华为数据存储
高翼枭,华为数据存储产品线,盘控专家,研究方向为存储集群网络。
报告题目:AI场景存储集群的挑战与机会
报告摘要:AI大模型的中心训练和中心推理场景对存储集群提出了新的挑战。本报告围绕中心训练和推理存储集群的关键问题展开探讨,包括分布式文件系统在训练ckpt场景下的负载均衡问题, 存储IO直通技术, 中心推理存储集群的带宽诉求, 接入及组网等等。
朱凌俊
阿里云
朱凌俊,花名思潜,阿里云资深技术专家,主要负责阿里云存储产品的高性能网络技术研发,涵盖从底层网络协议、智能网卡到应用网络框架的各方面。主导了阿里内部广泛使用的RPC框架及网络库的开发和部署,有丰富的应用经验。负责了存储网络从内核态到用户态TCP、RDMA,再到自研Solar协议的多代技术演进,在25G、100G、200G的每代网络下都有多年大规模的研发和部署经验。在自研网络协议和智能网卡软硬协同设计上有丰富的积累,并多次将工业界的实践和研究,发表在SIGCOMM、NSDI、ISCA和ATC等系统和网络领域的顶级会议上。
报告题目:面向AI训练场景的存储网络加速
报告摘要:随着AI技术的迅猛发展,训练中对checkpoint的性能和容量需求日益增长,给存储网络带来了诸多挑战,包括大规模GPU集群引起的规模问题、cp速度瓶颈导致的GPU闲置问题,以及系统在动态资源需求下的弹性维护问题。本报告将探讨这些挑战,分享我们在优化存储网络性能方面的实际探索经验,并也向业界提出我们在存储和网络协同的协议中的思考和问题
版权所有:中国计算机学会技术支持邮箱:conf_support@ccf.org.cn