超大模型的推理和部署实践

简介

自从2020年 OpenAI 推出GPT模型之後,越来越多研究和实践证明超大模型在各类任务上的卓越能力与重要性,在 CNCC2022 大会上 ,百度、腾讯、小冰和京东携手NVIDIA带来《超大模型的推理和部署实践》分论坛。通过本次分论坛,您将了解飞桨超大模型的压缩和推理优化;基于精调、蒸馏和压缩的大模型落地应用;通往高参数效用比的自然语言处理 - 预训练、下游任务与前沿展望;小冰如何利用FasterTransformer实现大规模语言模型的产品级部署,以及Transformer模型在TensorRT上的推理性能优化等内容。

直播回放
CCF数图-直播回放
日程
时间:12月9日05:30-09:30
地点:线上会议室6
时间 议程 主持人/演讲嘉宾
Transformer模型在TensorRT上的推理性能优化 王猛
飞桨超大模型的压缩和推理优化  党青青
通往高参数效用比的自然语言处理-预训练、下游任务、与前沿展望 丁亮
基于精调、蒸馏和压缩的大模型落地应用 刘凯
小冰如何利用FasterTransformer实现大规模语言模型的产品级部署 赵天雨
小冰如何利用FasterTransformer实现大规模语言模型的产品级部署 郑鹏
基于FasterTransformer 和 Triton 大模型的预估 薛博阳
Panel 刘凯
Panel 王猛
主席

侯宇涛

NVIDIA GPU应用市场总监

个人简介:2005年加入 NVIDIA,在游戏、计算机视觉、HPC 和人工智能计算领域任职销售十年,推广 GPU 产品并积累了丰富的行业应用经验。近六年来专注于推广GPU应用生态及开发者社区建设,着重于高校 GPU 和 CUDA 教育网络搭建和深度学习应用的推广。曾支持多所高校参加各种HPC大赛,在中国推广NVIDIA GPU 教育中心计划以及NVIDIA GPU 研究中心计划多年,与CCF紧密合作,积极赞助参与 CCCV,HPC 及 CNCC 大会。

共同主席

王猛

NVIDIA GPU 技术专家

报告题目:Transformer模型在TensorRT上的推理性能优化

报告摘要:Transformer在NLP和CV领域大放异彩,在众多深度学习模型中显现了突出的效果。同时,它相比于卷积网络需要更高的计算量,其推理优化值得关注。TensorRT是NVIDIA专门针对推理场景推出的性能优化工具;NVIDIA DevTech团队将若干常用的Transformer模型移植到TensorRT,获得了良好的加速效果。

个人简介:2019年加入 NVIDIA,目前主要从事GPU上模型部署与优化,在TensorRT,ONNX和CUDA并行计算等领域有较多的研究和应用经验,目前主要负责TensorRT workflow。

嘉宾

党青青

百度资深研发工程师

报告题目:飞桨超大模型的压缩和推理优化 

报告摘要:超大模型在各类任务上取得卓越的效果,然而由于超大模型体积大、速度慢,推理部署面临巨大的挑战,大模型的高效推理是实现大模型产业应用落地的关键所在。飞桨推出了针对大模型的压缩、推理、服务化全流程部署方案。该方案通过面向大模型的精度无损模型压缩技术、自适应分布式推理技术,可自动感知硬件特性,完成模型压缩、自动切分和混合并行推理计算,实现领先性能。

个人简介:百度资深研发工程师,目前主要从事深度学习模型推理、压缩、视觉算法的研究。负责飞桨推理性能优化,以及模型压缩工具、视觉套件建设。有丰富的深度学习框架系统研发、高性能优化、算法调优经验。

嘉宾

丁亮

京东探索研究院算法科学家

报告题目:通往高参数效用比的自然语言处理-预训练、下游任务、与前沿展望

报告摘要:如今自然语言处理领域正在进行 “训练->推理” 到 “预训练->下游任务微调”的范式转换,其中模型神经元数量和预训练所用数据规模已经远超人类大脑的神经元数量和人类人均阅读总量,同时在GLUE等通用大模型评估榜单中获得的收益是非常微弱的。对此,我们开展了一系列高参数效用比的自然语言处理预训练、和下游任务的探索,来帮助大模型更加智能、高效的从海量数据中挖掘知识,并鲁棒、准确的迁移到下游任务中。

个人简介:京东探索研究院算法科学家,自然语言处理方向负责人。博士毕业于悉尼大学,师从IEEE/ACM Fellow陶大程教授。他致力于基于深度学习的自然语言处理,包括大规模语言模型预训练、语言理解、生成和翻译。他带领团队在2021年12月在两个GLUE基准评测任务上实现首次超越人类的表现,随后在2022年1月以均分91.3获得总榜单第一。

嘉宾

刘凯

腾讯软件工程师

报告题目:基于精调、蒸馏和压缩的大模型落地应用

报告摘要:大模型历经过去几年探索已经相对成熟。目前如何能够在真实场景快速落地成为急需解决的问题。为解决大模型落地方面的各种问题,我们开发提供精调、蒸馏、压缩、推理、服务化全流程部署方案,助力大模型快速有效落地。

个人简介:腾讯软件工程师,从事NLP训练推理一体化服务开发。

嘉宾

赵天雨

小冰高级研究员

报告题目:小冰如何利用FasterTransformer实现大规模语言模型的产品级部署

报告摘要:小冰在部署 GPT 1B/6B 模型中遇到的困难;Faster Transformer (FT) 如何解决上述困难;在上述模型配置下,FT+Triton 与 baseline (Huggingface Transformers 和 Deepspeed) 在 a. latency, b. throughput, c. 可部署的最低配置GPU环境 上的差异;小冰如何利用 FT 对 soft prompt/prefix 的支持,在只使用同一个 backbone model 的情况下实现对不同用户的高度自定义化。

个人简介:2015年本科毕业于北京大学计算机系,2020年博士毕业于京都大学智能信息学系,同年就职于小冰日本团队。研究方向为自然语言处理,主要关注对话系统、大模型的训练与部署。

嘉宾

郑鹏

NVIDIA GPU 计算专家

报告题目:小冰如何利用FasterTransformer实现大规模语言模型的产品级部署

报告摘要:小冰在部署 GPT 1B/6B 模型中遇到的困难;Faster Transformer (FT) 如何解决上述困难;在上述模型配置下,FT+Triton 与 baseline (Huggingface Transformers 和 Deepspeed) 在 a. latency, b. throughput, c. 可部署的最低配置GPU环境 上的差异;小冰如何利用 FT 对 soft prompt/prefix 的支持,在只使用同一个 backbone model 的情况下实现对不同用户的高度自定义化。

个人简介:毕业于佐治亚理工计算科学与工程专业,2021年加入NVIDIA主要参与FasterTransformer Multi-GPU Multi-Node 相关的优化工作。

嘉宾

薛博阳

NVIDIA GPU技术专家

报告题目:基于FasterTransformer 和 Triton 大模型的预估

报告摘要:自2020年 OpenAI 推出GPT模型之後,越来越多研究证明超大模型在自然语言处理上的能力与重要性。NVIDIA在 2021 年时基于FasterTransformer 开发多机多卡并行推理的功能,提出第一个多机多卡大模型推理的解决方案。FasterTransformer本身不具有收集、整理请求的能力,这在实际应用上是非常重要的功能。为了填补不足,我们将FasterTransformer 与推理框架 Triton 进行结合,让FasterTransformer 能够更好的支持实际的推理场景。在这次的演讲中,我们会详细的讲解我们如何实现以上的功能,让用户能透过FasterTransformer将大模型推理实际落地。

个人简介:2019年加入NVIDIA,目前主要负责FasterTransformer的开发与优化。FasterTransformer 提供 Transformer 模型推理上灵活与高效的调用,对比一般的框架能提供数倍到十倍以上的加速效果。除此之外,是第一个支持GPT-3的推理库。FasterTransformer针对GPT-3这种超大规模 (1750亿模型参数) 的模型提供了模型并行、优化通信开销、显存使用,让使用者能以最少的GPU、透过多GPU、多节点在GPT-3的服务上得到最好的速度。

嘉宾

刘凯

腾讯软件工程师

报告题目:Panel

个人简介:从事NLP训练推理一体化服务开发。

嘉宾

王猛

NVIDIA GPU技术专家

报告题目:Panel

个人简介:2019年加入 NVIDIA,目前主要从事GPU上模型部署与优化,在TensorRT,ONNX和CUDA并行计算等领域有较多的研究和应用经验,目前主要负责TensorRT workflow。