近年来,大模型在人工智能领域取得了飞速进展,在多个应用领域取得了突破性成就。图数据是现实世界中一种常见的数据格式,它不仅可以描述个体的特征,还可以描述个体之间的关系,是广受关注的重要数据。本论坛重点关注图上基础大模型研究,探讨包括但不限于大模型驱动的图模型研究、图上的自监督学习、图上基础大模型的预训练和应用等前沿技术。本论坛邀请了五位图基础模型领域的杰出学者(按照姓名拼音顺序排序),对该领域的前沿研究和关键技术进行分享。
论坛主持人
主持人简介:王杰,现任中国科学技术大学教授,博士生导师,少年班学院副院长,“脑启发智能感知与认知”教育部重点实验室副主任,国家创新人才计划青年特聘专家,国家优青,IEEE Senior Member,CCF杰出会员,曾任美国密歇根大学研究助理教授。王杰教授长期从事人工智能、机器学习等相关领域的研究,主要研究方向包括图机器学习、AI4Science(如AI4EDA、AI4OR等)、大模型等。在机器学习国际顶级期刊及会议(如IEEE TPAMI、JMLR、NeurIPS、ICML 和 ICLR 等)发表文章近百篇。曾获 SIGKDD 2014 Best Student Paper Award,代表性工作进入由美国科学院院士撰写的 统计稀疏学习教材。担任IEEE TPAMI编委,以及NeurIP、ICML、SIGKDD等CCF-A类人工智能国际顶级会议领域主席或(资深)程序委员20余次。
主持人简介:范文琦,香港理工大学助理教授 (电子计算机系和管理及市场学系)。博士毕业于香港城市大学计算机系,曾在密西根州立大学(汤继良教授团队)进行学术访问。主要研究领域为数据挖掘和机器学习、特别是在推荐系统、大语言模型、可信人工智能等领域的研究和应用。主要科研成果发表于 TKDE、KDD、WWW、ICDE、SIGIR、NeurIPS、ICLR、AAAI、IJCAI、RecSys、WSDM、SDM等。他被清华大学Aminer提名为2022/2023/2024 “AI 2000人工智能最具影响力学者”。他担任了多个大型国际学术会议的Area chair和 (S)PC,包括ICML/ICLR/NeurIPS/KDD/WWW/AAAI/IJCAI等;担任多个著名国际期刊审稿人,包括TKDE/TIST/TKDD/TOIS/TAI等。他曾在顶级会议多次组织Tutorials,获得广泛关注和好评。主持多项香港项目基金包括RGC-GRF和ITF,及国家自然科学基金NSFC。详细请见:https://wenqifan03.github.io/
主持人简介:王怡琦,国防科技大学计算机学院助理研究员。主要研究兴趣包括图神经网络,智能基础软件等,发表多篇高水平学术论文,累计学术引用2000余次,译著《图深度学习》畅销国内。担任TKDE, AAAI,IJCAI,KDD 等多个学术期刊/会议 的(高级)审稿人和(资深)程序委员会委员, 并多次在领域内顶级会议组织学术Tutorials。
报告1:GraphMAE: 自监督图表示学习与预训练
报告人简介:东昱晓,清华大学计算机系副教授,知识工程实验室(KEG)成员,曾工作于脸书人工智能和微软总部研究院。研究方向为数据挖掘、图机器学习和基础大模型,相关成果应用于十亿级用户社交网络和知识图谱。入选IJCAI Early Career Spotlight,获2017年ACM SIGKDD博士论文奖提名和2022年ACM SIGKDD Rising Star Award。
报告摘要:图表示学习在各领域取得了不错的效果。本次报告分享我们在自监督图表示学习与预训练方面的尝试。首先,提出图嵌入的谱理论框架,证明多种主流图嵌入方法的理论等价性,基于此开发可处理千亿边数大图的快速嵌入模型。其次,设计能够捕捉多类型节点和关系特性的异构图注意力机制,将图神经网络有效应用于真实世界中的大规模动态异构图。最后,讨论如何设计图预训练的自监督学习任务,实验结果表明生成式预训练图神经网络可以在各种图挖掘任务中超越有监督的图学习模型,验证了自监督预训练在图挖掘与学习任务中的巨大潜力。
报告2:图自监督学习的“游戏规则”
报告人简介:王啸,北京航空航天大学教授,博士生导师。研究方向为数据挖掘与机器学习,主持国家自然科学优秀青年基金等项目。共发表论文100余篇,谷歌学术引用10000余次,7篇入选最有影响力论文榜单,3次获得(提名)CCF A/B类等国际会议论文奖,成果多次被写入业界图学习标准库PyG和DGL等。获得教育部自然科学一等奖,中国电子学会科技进步一等奖,吴文俊人工智能优秀青年奖,ACM中国新星提名奖,2021-2023年入选斯坦福大学发布的全球Top 2%顶尖科学家榜单,2022-2024年入选AMiner评选的AI2000最具影响力学者Honorable mention。担任WWW/AAAI/IJCAI的高级程序委员会委员,IEEE TAI期刊副编辑。
报告摘要:图自监督学习旨在在无标签场景下学习图数据的表征,已成为目前学术界与工业界处理图数据的重要手段之一。基于图数据增广、增广图学习、对比损失优化的图对比学习成为了图自监督学习的典型技术。然而深究其背后的机理,我们依然会存在诸多疑问:不同的图增广策略背后,是否同样共用一套“游戏规则”?图结构在对比损失优化中扮演着什么样的角色?图对比学习最后到底学到了图中的什么信息?本次报告围绕以上问题对图对比学习展开了初步思考,梳理不同方法之间的联系,为我们审视与改进现有图对比学习带来新的视角。
报告3:大模型驱动的图基础模型及AI4Science应用
报告人简介:王翔,中国科学技术大学特任教授、博导,2021年国家优青(海外)获得者。研究方向包括可解释与可信人工智能、图深度学习、多模态大模型、信息检索与推荐,2022、2023、2024连续三年入选AI 2000全球人工智能最具影响力学者、“爱思唯尔2022中国高被引学者”,承担国家基金委重大研究计划培育项目、科技部新一代人工智能国家科技重大专项大模型课题。相关的研究成果在CCF A类国际顶级会议和期刊发表论文90余篇,谷歌学术引用一万七千余次,其中10篇论文是相关会议的最具影响力论文和最高引论文,3篇论文入选相关会议的Best Paper Final List,1篇论文获得国际基础科学大会前沿科学奖。
报告摘要:大模型的迅猛发展,成为了各个交叉领域关注的焦点。然而,将大模型应用于以图为中心的领域需要新的方法来桥接语言空间与复杂的结构化图数据。本报告将分享我们在AI4Science中的最新工作,重点是将LLMs与基于图的数据表示(例如,二维分子图、三维分子点云、和分子-分子交互与化学反应、蛋白质结构)相结合,以期推动大模型驱动的图理解和生成方法前沿,为科学家利用AI的力量开展研究提供新工具。本次报告将详细介绍将大模型与图对齐的范式、挑战和潜在影响,为未来AI驱动的科学探索提供初步探索。
报告4:预训练大模型与科学智能
报告人简介:张铭,北京大学二级教授,博士生导师,CCF杰出教育奖获得者,教育部计算机课程教指委委员,ACM China常务理事,ACM/IEEE CC2020计算机学科规范执委。自1984年考入北京大学,分别获得学士、硕士和博士学位。主要研究方向为机器学习、图神经网络、计算机教育,主持科技部重点研发、国家自然科学基金等多个科研项目,合作发表科研学术论文 300 多篇,Google学术上的论文被引 18500多篇次,H 因子 47。获得机器学习领域最好的会议 ICML 2014 最佳论文奖,网络信息处理顶会WWW 2016和WSDM 2022 最佳论文提名;发表于WWW 2015的LINE模型目前单篇被引6300余次,是图机器学习领域重要的基线模型之一;在EMNLP 2021中提出 Generate & Rank数学问题自动求解方法被OpenAI 团队的一篇论文中引用三次,并且应用于ChatGPT。所主持的“数据结构与算法”被评为国家级精品课程、国家级优质资源共享课、国家级精品在线开放课程、国家级一流本科课程。
报告摘要:预训练语言模型是目前最具前景的技术之一,被广泛应用于多种自然语言处理和科学智能任务中。本报告介绍北京大学张铭团队的相关工作。在数学方面,团队在EMNLP 2021提出了一个基于预训练语言模型的多任务数学问题求解框架Generate & Rank。通过在生成任务和排序任务上的联合训练,两个模块相互增强,提高了整体推理精度。此外,还提出了多种表达式库构建策略和在线更新策略,来进一步提升排序器的判别性能。该工作被OpenAI 团队的一篇论文中引用三次, 他们认可 Generate & Rank 是提升预训练模型数学推理能力非常有效的方法, 并且在 OpenAI 中也采用了类似的方法,目前该论文被引90余次。在化学方面,团队在EMNLP 2023提出了一个分子与文献混合预训练的语言模型。通过将 SMILES 分子式插入文本进行预训练使得模型能同时编码文献知识和分子的结构知识,实现两种模态信息的相互补充,在分子预测与生成任务上都表现突出,发表半年不到已经被引31次。我们认为预训练语言模型具有强大的文本理解和生成能力,并且泛化性能很强,在科学智能领域具有广阔的研究前景。
报告5:自监督图学习及应用研究进展
报告人简介:赵翔,国防科技大学教授、博导。教育部高层次青年人才,湖南省科技创新领军人才。从事大数据知识工程、图数据管理与分析等方面的研究与应用,主持国家重点研发计划(青年科学家)项目、国家自然科学面上基金、湖南省杰出青年基金等重要科研项目10余项,出版专著1部,获评国际会议论文奖4项,申请专利40余项。湖南省科技创新团队骨干成员,获评军队科技进步二等奖、中国计算机学会自然科学二等奖、中国指挥控制学会科技进步一等奖。中国计算机学会杰出会员、信息系统专委副秘书长、大数据专家委员会、数据库专业委员会执行委员。
报告摘要:自监督图学习可以从复杂多样的图结构数据中提取有意义的特征,并已成功应用在节点分类、链路预测、图分类等图数据挖掘与分析任务中。本报告将简要介绍自监督图学习的基本思路,并分享团队近期在自监督图学习及应用方面的若干进展,主要包括同构图上的自监督表示学习方法、异构图上的自监督表示学习方法和动态图上的异常检测方法等。
版权所有:中国计算机学会技术支持邮箱:conf_support@ccf.org.cn