多媒体认知计算前沿论坛
随着人工智能技术的快速发展,基于以ChatGPT为代表的大语言模型的多模态AI Agent已逐渐成为学术界和工业界关注的焦点。多模态AI Agent被认为是通往通用人工智能(AGI)的必由之路,为实现这一愿景,我们需要从开放世界下的多模态感知、虚拟场景下的软形智能体、物理场景下的具身智能体以及综合场景下的多维度评估等方向同步开展探索和创新,建立数据与知识混合驱动的多模态多任务多场景感知-认知-行动工作流。本次论坛以“多模态AI Agent”为主题,探讨如何定义并实现能深入人类生产生活、真正通用的人工智能,为赋能“AI+”场景提供新质生产力。为此,我们邀请了国内相关领域的杰出专家学者,他们将带来最具前沿的研究成果和技术进展的精彩分享。
论坛主持人:赵健
主持人简介:赵健,中国电信人工智能研究院多媒体认知学习实验室(EVOL Lab)负责人、资深研究科学家,西北工业大学光电与智能研究院研究员、博导,博士毕业于新加坡国立大学,研究兴趣包括多媒体分析、临地安防、AI智能体。共发表CCF-A类论文50余篇,含一作T-PAMI×2(IF: 24.314)、IJCV×3(IF: 13.369),第一发明人授权国家发明专利5项。相关技术成果在百度、蚂蚁金服、奇虎360等6个科技行业领军企业得到应用,产生了显著效益。曾入选中国科协及北京市科协“青年人才托举工程”,主持国自然青年科学基金等项目6项。曾获吴文俊人工智能优秀青年奖(2023)、吴文俊人工智能自然科学奖一等奖(2/5,2022)、新加坡模式识别与机器智能协会(PREMIA)Lee Hwee Kuan奖、ACM Multimedia唯一最佳学生论文奖(一作,1/208,CCF-A类会议,2018),7次在国际重要科技赛事中夺冠。担任北京图象图形学学会理事,国际知名期刊《Pattern Recognition》、《Artificial Intelligence Advances》、《IET Computer Vision》编委,《Pattern Recognition Letters》、《Electronics》特刊客座编辑,VALSE资深领域主席,ACM Multimedia 2021分论坛主席,CICAI 2022/2023领域主席,CCBR 2024论坛主席,中国人工智能学会/中国图象图形学学会高级会员,“挑战杯”大学生科技作品竞赛评委,中国人工智能大赛专家委委员等。
报告1:AIGC在人脸识别与安全中的应用
报告人简介:李琦,中国科学院自动化研究所副研究员,中国科学院青促会会员,北京市科协青年人才托举,北京图象图形学学会理事,中国图象图形学学会视觉与大数据专委会委员,中国人工智能学会模式识别专业委员会委员。截止目前发表(含录用)CCF推荐期刊和会议论文50余篇。连续多次担任国内生物特征识别旗舰会议CCBR程序委员会主席和出版主席等,并担任多个CCF-A类推荐会议的程序委员。主持国家重点研发计划青年科学家项目一项,国家自然科学基金两项。研究成果获得2022年中国图象图形学学会技术发明奖二等奖、2023年中国产学研合作创新成果二等奖等。申请专利十多项,软件著作权四项,所研发人脸识别及安全系统成功应用在华为、蚂蚁金服、铁路系统等。
报告摘要:随着人脸识别技术的广泛应用,其相关的安全问题也日益凸显,越来越多的攻击手段涌现。一些典型的攻击方式,如活体攻击、对抗攻击、伪造攻击等,给人脸识别系统普及带来严峻的挑战。针对上述挑战,本报告聚焦于AIGC在人脸识别与安全系统中应用,探讨可能的一些解决方案。
报告2:视觉运动计算:生物模型vs计算机视觉模型
报告人简介:王刚,军事科学院副研究员,北京脑科学与类脑研究所青年研究员,硕士生导师;兼任中国神经学会类脑智能分会副秘书长、青工委委员。获比利时根特大学工学博士学位,研究方向为类脑视觉计算与智能光电感知。先后主持国家自然科学基金和北京市自然科学基金等多项课题,以第一/通讯作者(含共同)在TIP、TPAMI、ICCV等期刊或顶会上发表论文20余篇,多次在国际竞赛和会议中获得奖项,获得发明专利/软著10余项。曾入选全军青年科技英才、北京市科技新星、北脑青年学者等。
报告摘要:视觉运动信息是生物感知环境与目标识别的重要线索,在计算机视觉领域被广泛用于视频分割、视听融合、目标检测等任务。围绕视觉运动计算,业内已提出基于信息论、变换域、视觉先验、深度信息、眼动、光流、数据学习等方法,但这些方法与生物视觉运动信息加工方式存在较大差异。近年来,随着多通道在体电生理和双光子成像等技术的发展,神经科学领域在生物视网膜和初级视皮层视觉运动机制解析方面取得了一系列进展,对视觉运动计算研究具有良好的借鉴意义。报告将分析生物视觉运动加工模型和视频显著性计算模型的异同,介绍神经机制启发的视觉运动计算模型,并结合典型目标检测任务进行对比和讨论。
报告3:无约束场景下人体感知理解
报告人简介:金磊,北京邮电大学特聘副研究员,博士生导师,研究方向为人体感知理解、具身智能,现有工作聚焦于基于计算机视觉的人体姿态估计、人体解析、行为理解等,相关成果发表在CVPR/AAAI/ACMMM/TMM等CCF-A类和中科院一区期刊会议10余篇,主持一项国家自然基金青年基金,参与两项国家重点研发项目以及四项国家自然基金面上项目。多次依托国内及国际会议组织ICCV2021/CVPR2023 /FG2024/PRCV2024研讨会。
报告摘要:基于计算机视觉的人体感知理解一直是人工智能领域的热点,而在实际应用中往往需要处理拥挤、遮挡、复杂背景等挑战,以及对算法的实时性需求。因此,我们以单阶段框架为基础,提出了去中心化人体表征,通过更多的预测候选及更有效的筛选策略,从而提升人体姿态估计任务中的召回率。此外,针对以视频为输入的任务,我们提出了一个轻量化的人体姿态序列优化算法,通过协同序列的定位准确度和加速度平滑度,可以以较小的计算开销显著提升人体姿态模型的性能。
报告4:生成式仿真赋能具身智能
报告人简介:赵昊,清华大学智能产业研究院助理教授。于清华大学电子工程系获得学士和博士学位,曾于英特尔中国研究院担任研究员,曾在北京大学从事博士后研究。主要研究兴趣是与机器人相关的计算机视觉,尤其是三维场景理解和自动驾驶领域。在CVPR / ICCV / ECCV / SIGGRAPH / NeurIPS / ICLR / ICRA / IROS / CICAI 等顶级学术会议以及T-PAMI / IJCV / CVIU / ISPRS / T-IP / T-MM / CIBM / KBS / RA-L等顶级学术期刊上发表了30余篇研究论文。赢得过多项三维场景理解算法挑战赛的冠军,并主导研发了全球首个开源的模块化真实感自动驾驶仿真器MARS,在CICAI 2023获得Best Paper Runner-up奖项。其主导研发的渲染阶段可调整精度速度的神经渲染方法SlimmeRF于3DV 2024获得Best Paper奖项。
报告摘要:人工智能学科正在走入具身智能新时代。与传统人工智能领域(视觉和语言等)不同,具身智能需要有标注的感知决策混合数据,而在真实世界中获取此类数据的成本高且风险大,因此真实感仿真成为重要解决思路。而传统的仿真面临资产建模成本高,仿真环境和真实环境差别大等问题,生成式模型的最新突破是解决这些老问题的重要途经。因此,本人的研究为具有丰富物理光学属性的三维四维生成式模型,以其赋能真实感黑盒白盒神经渲染仿真,进一步推进端对端具身智能感知决策算法的进步。
报告5:基于因果感知的时空数据挖掘
报告人简介:王琨,中国科学技术大学博士生。从事图神经网络压缩、地球科学等领域的研究。在IEEE-TPAMI、IEEE TKDE等期刊以及ICLR、NeurIPS、ICML、KDD等会议发表论文20余篇,其中第一作者和通讯作者10篇。曾获得环球数码科技奖学金,博士一等奖学金,苏州工业园区奖学金。
报告摘要:时空数据挖掘在气象预测、人类移动、分子动力学建模等场景下具有十分重要的意义。在计算机领域有大量的数值模拟和物理学驱动的深度神经网络被开发以解决上述时空预测问题,然而,由于缺乏可解释和因果关系,使得设计的框架通常是定制化的,缺乏分布外泛化的能力,深度学习的天然黑盒操作又加深了算法工程师对模型落地鲁棒性和稳定性的担忧。报告将致力于将因果理论和时空数据挖掘相结合,介绍因果感知的时空数据挖掘模型,并结合传统方法进行介绍并讨论。
版权所有:中国计算机学会技术支持邮箱:conf_support@ccf.org.cn