在国产计算平台上,需要针对处理器微体系结构直接利用汇编语言或者intrinsic函数撰写底层的高性能基础函数库,包括如sin,cos等超越函数的Libm库,基本向量矩阵运算的稠密和稀疏BLAS库,以及快速傅立叶变换FFT库,数值线性代数LAPACK库等。在飞腾、申威,鲲鹏,龙芯,海光,兆芯等CPU,以及众多国产加速器芯片和智能芯片上,设计实现优化与之匹配的底层基础函数库需要花费大量的研发成本。本论坛将邀请国内芯片研发团队的一线科研人员做学术报告,探索高效敏捷开发国产芯片基础函数库的技术,构建国内统一标准的基础函数库接口和软件生态。
时间 | 议程 | 主持人/演讲嘉宾 | 回放 |
---|---|---|---|
06:00 - 06:40 | KML——面向鲲鹏的高性能数学库 | Gololobov Sergey | |
06:40 - 07:20 | 面向国产申威众核处理器的高性能扩展数学库xMath2.0 | 刘芳芳 | |
07:20 - 08:00 | 求解两类最小二乘问题变体的混合精度算法 | 邵美悦 | |
08:00 - 08:40 | 面向正确舍入基础数学函数自动生成的并行优化技术 | 易昕 | |
08:40 - 09:20 | 浮点表达式的计算性能及精度优化技术 | 张作言 | |
09:20 - 10:00 | PanguLU 4.0在MT平台上的功能和性能优化 | 李易达 |
个人简介:黄春,国防科技大学研究员,博士生导师。长期从事高性能计算编译系统软件的研制,作为编译系统技术带头人参与了银河、天河系列高性能并行计算机系统等多个国家和军队重点型号工程以及核高基重大专项的研制工作。2023年被授予全国三八红旗手称号,荣立三等功一次,获得国家科学技术进步特等奖1项、全国创新争先奖牌特等奖1项,军队科技进步一等奖4项,二等奖1项;作为主讲人的MOOC课程“编译原理”获首批教育部国家级一流本科课程;主持国家重点研发计划、装备预研和科技委基础加强项目多项。
数学库技术专家
报告摘要:数学库(BLAS、FFT、LAPACK、ScaLAPACK、稀疏求解器等)作为HPC基础软件,是HPC生态的重要组成部分,其性能是发挥计算硬件算力,使能高性能应用的关键。华为当前已构筑数学库Kunpeng Math Library (KML), Gololobov Sergey作为数学库技术专家,负责数学库的整体竞争力规划,本次报告向与会专家介绍华为数学库的竞争力构建情况。
个人简介:博士,数学库技术专家,曾任Intel MKL数学库负责人。
正高级工程师,博士生导师
报告摘要:高性能扩展数学库是众多处理器必备的底层软件之一,被多个实际应用所调用。面向国产芯片研制高性能扩展数学库意义重大。本报告主要介绍面向国产申威众核处理器的高性能扩展数学库xMath2.0的研制情况、最新进展、支撑应用情况以及自动代码生成方面的研究进展。
个人简介:刘芳芳,中国科学院软件研究所正高级工程师,博士生导师,主要研究方向为高性能计算。在国内外期刊和会议上发表高水平学术论文30余篇,获发明专利授权14项。承担多项国家重点研发计划、国家自然科学基金、中科院战略先导B/C类专项、核高基国家重大专项等课题任务。曾获ACM Gordon Bell奖和中国科学院杰出科技成就奖。
研究员,博士生导师
报告摘要:近年来混合精度算法在科学与工程计算中受到了广泛关注。对于线性方程组的求解,基于低精度分解加上高精度迭代改进的混合精度算法达到了理想的性能加速效果,并在理论上可以证明对于良态问题其求解精度与经典的单一精度算法相当。线性最小二乘问题可通过增广系统转化为特殊的线性方程组,适用上述混合精度算法。本次报告主要讨论求解两类线性最小二乘问题常用变体的混合精度算法,包括带线性等式约束的最小二乘问题(LSE)和广义最小二乘问题(GLS)。在x86-64平台上,对于较为良态的问题,混合精度算法可以比LAPACK中的经典算法节省约40%的运行时间,同时保持求解精度相当。
个人简介:邵美悦,复旦大学大数据学院青年研究员,主要研究领域为数值线性代数、高性能计算、量子力学计算。2014年毕业于瑞士洛桑联邦理工学院,获得计算数学博士学位。2014年至 2019年在美国劳伦斯伯克利国家实验室从事研究工作,先后担任博士后研究员和项目科学家。2019年5月进入复旦大学大数据学院工作。
助理研究员
报告摘要:正确舍入基础数学函数对于数值计算和科学应用至关重要。生成这些函数是一项具有挑战性的任务。最新的方法通过将生成正确舍入的基础数学函数的问题转化为线性规划问题来自动化这一过程。然而,这种生成过程是串行的,序列化的低效率阻碍了新基础数学函数的创建,并限制了该技术的更广泛应用。如何使用并行化方法,以加速正确舍入的基础数学函数的生成?本报告介绍从任务分解和数据并行两个维度优化数学函数的生成过程,有效缓解数据依赖和竞争,使其适用于传统的并行模型,从而加速数学函数的自动生成。
个人简介:易昕,国防科技大学计算机学院,助理研究员,主要从事面向超级计算机的高性能数学库的研制相关工作,主要研究方向是高性能计算、浮点误差分析和数值程序自动修复;主持国家自然科学基金青年项目一项,参与国家自然科学重点研发计划等多项;在CCF高水平论文和期刊如POPL、OOPSLA、TOSEM、SCIS、SANER、ICPP等发表论文10余篇,获APSEC 2017最佳论文奖,曾担任软件学报、CCPE等期刊审稿人。
博士研究生
报告摘要:面向国产芯片的高性能基础数学库研发的核心是针对浮点计算表达式的精度和性能控制,在高性能基础数学库的研发过程中,衍生并依赖于浮点误差分析,浮点计算精度优化和混合精度优化等一系列工作。本报告将介绍自研的高性能基础数学库,以及研发过程中涉及的面向循环嵌套程序的自动混合精度优化、基于区间重写的表达式精度优化和浮点误差检测方法等方面的研究成果及思考。
个人简介:张作言,信息工程大学硕士,湖南大学在读博士,研究方向为数值程序分析和AI编译器,特别关注于浮点误差检测和大模型分布式训练加速,研究成果发表在ASE,ISSTA,PPoPP等国际会议上
博士研究生
报告摘要:超级科学软件实验室自2020年起从零开始自主研发了面向异构分布式平台的开源稀疏直接法解法器的PanguLU,并于2023年将介绍PanguLU 3.5版本优化技术的论文投稿至超算顶级会议SC,十分幸运地获得了大会唯一最佳论文奖,这也是来自中国科研机构的工作在SC大会36届历史上首次斩获最佳论文奖。在深受鼓舞的同时,我们也清楚地认识到PanguLU在支持平台、到解性能和易用性上还有很大的优化空间。最近,PanguLU 4.0初步完成了对MT异构处理器的适配和部分优化。本报告将介绍最新的PanguLU 4.0在功能完整性和性能优化上的一系列努力,并展示在MT异构处理器上的最新性能。
个人简介:李易达,中国石油大学(北京)一年级博士生。2024年于中国石油大学(北京)获计算机系学士学位。2024年9月至今于中国石油大学(北京)攻读博士研究生,主要研究领域为高性能计算,大规模异构分布式解法器。在此期间优化和完善了异构分布式直接法解法器PanguLU。目前,最新版本PanguLU 4.0已经在Github上开源。
版权所有:中国计算机学会技术支持邮箱:conf_support@ccf.org.cn