近年来,大模型在人工智能领域掀起新一波热潮,凭借其出色的表征学习和泛化能力,极大地提升了多种AI任务的学习性能。不过,与大模型应用的迅猛发展相比,对其深层理论和内在工作机制的探究却稍显缓慢,这无疑将阻碍了大模型的持续优化及其在更广领域的应用。为了更深入地剖析大模型的理论和运行机制,本次研讨会特地邀请了国内该领域的优秀学者,他们将带来有关大模型理论与机制的最新科研成果。
论坛主持人:刘勇,中国人民大学高瓴人工智能学院
主持人简介:刘勇,中国人民大学高瓴人工智能学院副教授,博士生导师。从事机器学 习研究,特别关注统计机器学习、图表示学习、自动机器学习等。发表高水平论文80多篇,其中以第一作者或通讯作者发表高水平文章50余篇,涵盖机器学习领域顶级期刊TIT、JMLR、TPAMI、Artificial Intelligence 和顶级会议ICML,NeurIPS,ICLR等。曾获得中国科学院“青年创新促进会”会员(院人才)以及中国科学院信息工程研究所“引进优秀人才”称号。
报告1:大模型技术的研发与思考
报告人简介:赵鑫,中国人民大学高瓴人工智能学院,教授,优青。2014年7月于北京大学获得博士学位,随后进入中国人民大学工作至今。研究领域为大语言模型与信息检索,共计发表论文100余篇,谷歌学术引用1.7万余次,组织编写了大语言模型英文综述论文《A Survey of Large Language Models》(预印版文章)以及《大语言模型》中文教材,组织研发了Yulan系列大语言模型以及大模型工具库LLMBox。曾荣获CCF-IEEE CS青年科学家奖、吴文俊人工智能优秀青年奖、ECIR 2021时间检验奖、教育部自然科学奖一等奖、北京市自然科学奖二等奖、CCF自然科学奖二等奖。
报告摘要:最近,以ChatGPT为代表的大语言模型受到了社会的广泛关注。本次报告将围绕大语言模型研发过程中的关键技术展开介绍与讨论,分析现有技术特点以及局限之处,并且给出报告人对于这些方面的相关思考与实践经验。报告最后将进一步探讨大语言模型时代科研方向的探索。
报告2:神经网络是否可以被严谨的解释清楚?以及可解释性技术在大模型上的应用落地
报告人简介:张拳石,上海交通大学电院计算机科学与工程系,长聘教轨副教授,博士生导师,入选国家级海外高层次人才引进计划,获ACM China新星奖。于2014年获得日本东京大学博士学位,于2014-2018年在加州大学洛杉矶分校(UCLA)从事博士后研究。在神经网络可解释性方向取得了多项具有国际影响力的创新性成果,承担了TMLR的Action Editor,CCF-A类会议IJCAI 2020和IJCAI 2021的可解释性方向的Tutorial,并先后担任了AAAI 2019, CVPR 2019, ICML 2021大会可解释性方向的分论坛主席。
报告摘要:虽然近年来神经网络的可解释性研究得到了广泛的关注,但是大部分可解释性研究依然停留在工程技术层面,大量根本性问题尚未得到解决,尚缺少相对严谨的理论体系从根本机理层面统一解释神经网络的知识表达和其表征性能。比如,证明神经网络内在决策逻辑是否可以被严谨地解释为符号化的概念,如何量化神经网络的知识表征,什么是决定神经网络泛化性和鲁棒性的第一性原理,等等。本次报告将介绍如何在博弈交互理论体系下严谨地量化神经网络所建模的概念表征,如何证明解释的严谨性,如何通过概念表征层面的解释提升大模型的训练效率节省成本,如何对大模型安全性进行量化评估。
报告3:关于大语言模型能力边界的一点讨论
报告人简介:王本友,香港中文大学(深圳)数据科学学院助理教授、博士生导师、校长青年学者,深圳市大数据研究院研究科学家。曾获得了SIGIR 2017最佳论文提名奖、NAACL 2019最佳可解释NLP论文、NLPCC 2022最佳论文和华为火花奖,其还是自然语言处理顶会EMNLP的Website Chair和NLPCC的Publicity Chair。领导的研究团队开发的大模型包括多语言大模型凤凰、医疗健康垂直领域大模型华佗GPT和阿拉伯语大模型AceGPT。
报告摘要:随着大型语言模型的迅猛发展,其能力的边界成为了学界和业界关注的焦点。在推理或者序列决策过程中,但对其推理、建模乃至自动定理证明的能力仍存有疑问,大型模型是否能够独立完成复杂的推理规划过程,如果存在局限性,其根源何在,我们又应如何突破这些限制?此外,大型模型在处理非自然语言数据方面的潜力也引起了广泛关注。无论是编程语言、生物序列(如DNA/RNA)、图像视频,乃至脑电数据,是否能够通过语言模型作为核心的方案是否是一个完备的解决方案?在更为广泛的应用场景中,大型模型是否能够实现实用且有效的应用?对于上述问题,虽然目前尚无定论,但探讨大型模型能力的边界、当前面临的挑战以及未来的发展方向,对于推动该领域的进步具有重要意义。期待通过不断的研究和讨论,能够逐步揭开大语言模型能力边界的神秘面纱,为人工智能的未来贡献一点思考。
报告4:数据增广图视角下的表示学习理论
报告人简介:王奕森,北京大学助理教授,博士生导师。主要研究方向为机器学习理论和算法,目前重点关注大模型的理论、安全等。已发表机器学习三大顶会ICML/NeurIPS/ICLR文章50余篇,多篇被选为Oral或Spotlight,获ECML 2021最佳机器学习论文奖、ICML 2021 Workshop最佳论文银奖、CVPR 2021竞赛第一等,研究成果被麻省理工科技评论(MIT Technology Review)和中国中央广播电视总台(CCTV)专题报道。主持基金委“下一代人工智能”重大研究计划项目、科技创新2030“新一代人工智能”重大项目课题。担任NeurIPS Senior Area Chair等。
报告摘要:表示学习近年来在多个领域取得了巨大的成功,比如自监督学习无需数据标注即能获得很好的数据表示,成为近期一些列重要工作(CLIP,ChatGPT)中的核心技术之一。本报告将探讨自监督学习中的对比学习(Contrastive Learning)、掩码学习(Mask Image Modeling)、多模态学习(CLIP)背后的工作机理,从理论视角分析其优化过程和下游泛化能力,期望为自监督学习的算法设计提供一些新的见解
报告5:用锚函数研究语言模型的机理
报告人简介:许志钦,上海交通大学自然科学研究院/数学科学学院长聘教轨副教授。2012年本科毕业于上海交通大学致远学院。2016年博士毕业于上海交通大学,获应用数学博士学位。2016年至2019年,在纽约大学阿布扎比分校和柯朗研究所做博士后。与合作者共同发现深度学习中的频率原则、参数凝聚和能量景观嵌入原则,发展多尺度神经网络等。发表论文于TPAMI,JMLR,ICLR,AAAI,NeurIPS,SIMODS,CiCP,CSIAM Trans. Appl. Math.等学术期刊和会议。现为Journal of Machine Learning的创刊managing editor。
报告摘要:随着transformer结构的语言模型在推进通用人工智能方面发挥关键作用,对其进行深入理解变得越来越重要。然而,语言模型的研究面临着重大挑战,尤其是对资源有限的学术研究团队而言。这些挑战包括复杂的数据结构、未知的目标函数、高计算成本和内存需求,以及推理过程缺乏可解释性等。我们提出了一类锚函数,它可以模拟各种语言任务,并通过语言模型中的注意力结构找到一些基本操作,并验证这些操作在大语言模型中也是常见的。这些工作体现锚函数以轻量级成本挖掘语言模型底层机理的潜力。
版权所有:中国计算机学会技术支持邮箱:conf_support@ccf.org.cn