会议动态

大会论坛：“智联视界”：大模型时代的多媒体人工智能

发布时间： 2024.11.25

一、论坛概要

人工智能进入了大模型时代，正深刻改变多媒体技术与应用。从视频处理到图像生成，从智能感知到沉浸式体验，大模型赋能下的多媒体AI展现出前所未有的创新潜力。本次论坛将聚焦大模型与多模态智能技术在多媒体领域的前沿应用，探讨视频智能分析、视觉生成、跨模态感知等技术的最新进展和未来趋势。我们邀请了在多媒体AI领域具有国际影响力的学者和专家，分享他们的创新研究和实践经验，共同推动大模型在多媒体中的深度融合与应用。

二、论坛主席

马思伟

北京大学

马思伟，北京大学博雅特聘教授、IEEE Fellow、国家杰青、北京大学计算机学院党委副书记，北京大视频与视觉技术国家工程研究中心副主任。主要研究方向为高效视频编码技术及国内外标准研制、感知质量度量与感知失真优化编码、沉浸式媒体处理、压缩与传输、多媒体信号处理与系统研究。已在视频编码领域国际权威期刊和会议上发表论文300余篇，谷歌学术引用超17000次，获得50余项国内外授权专利。主持承担多项国家自然科学基金、科技部、863计划、973计划、国家重点研发计划等项目。曾获腾讯科学探索奖（2022）、IEEE 1857.10国际标准贡献奖（2022）、世界互联网领先科技成果（2021）、国家技术发明奖一等奖（排名第二，2020）、中国电子学会科学技术奖技术发明特等奖（排名第二，2019）、IEEE 1857国际标准贡献奖（2013）、国家科学技术进步奖二等奖（排名第五，2012）、全国百篇优秀博士论文奖（2007）、中国标准创新贡献奖一等奖 (2007)、国家技术发明奖二等奖（排名第五，2006）、首届AVS技术奖（2004）、IEEE PCS Top 10论文（2021）、IEEE MIPR 最佳学生论文（2019）、IEEE Multimedia 最佳论文（2018）、IEEE ICIP 最佳学生论文（2018）、PCM最佳论文奖（2017）等奖项。

梁永生

深圳技术大学副校长

梁永生，现任深圳技术大学副校长、哈尔滨工业大学（深圳）电子与信息工程学院二级教授、博士生导师、民进广东省委会常委。曾任深圳信息职业技术学院校长、深圳市科技创新委员会（深圳市国家自主创新示范区管理委员会、深圳市高新技术产业园区管理委员会）主任。荣获广东省珠江学者特聘教授、深圳市鹏城学者“通信与信息系统”学科长期特聘教授，致力于计算机网络与数据通信、信号处理与模式识别领域的教学与科研。目前主持国家自然科学基金重点项目和面上项目各1项，主持获得广东省科学技术奖二等奖1项、第二届吴文俊人工智能科学技术进步奖二等奖1项和深圳市科技创新奖1项；在权威期刊和知名国际学术会议上发表学术论文90多篇，其中SCI检索23篇，EI检索39篇；获得授权发明专利6项。2014年主持获得国家级教学成果一等奖1项和广东省高等教育教学成果一等奖1项。

三、论坛讲者及报告

林倞

鹏城实验室多智能体与具身智能研究所

林倞，鹏城实验室多智能体与具身智能研究所所长，中山大学计算机学院教授，国家杰出青年科学基金获得者，IEEE/IAPR/IET Fellow，曾任商汤科技首席研发总监/研究院执行院长。长期从事多模态人工智能、大规模机器学习等领域的应用基础研究，作为首席科学家/项目负责人，承担国家2030科技创新重大项目，入选国家万人计划；曾带领商汤科技研发团队搭建大规模AI基础设施，开拓新兴行业。在国际顶级学术期刊和会议发表论文300余篇，论文被引用3万次(谷歌学术统计)，多次入选全球高被引学者榜单；获权威期刊Pattern Recognition年度最佳论文奖，多媒体计算旗舰会议ICME最佳论文钻石奖，计算机视觉旗舰会议ICCV最佳论文奖提名；指导博士生获得CCF优秀博士论文奖、ACMChina优秀博士论文奖及CAAI优秀博士论文奖；带领团队获得吴文俊人工智能自然科学奖、中国图象图形学会科学技术一等奖、省级自然科学一等奖等荣誉。

报告题目：具身智能：从数字空间走向物理世界

报告摘要：智能体及具身智能是目前智能科学的前沿方向，被认为是实现通用人工智能的必经之路。其中智能体相当于与机器人的大脑(GPT-4是智能体的一种简化形式)。具身智能是进一步将智能体装上了身体，赋予智能体物理形体、感官及体验能力，使其具备通过与环境反复交互来持续学习及提升。本报告将介绍具身智能的发展趋势和动态，以及鹏城实验室基于国产化基础设施研发的具身智能若干关键技术和原型系统。

何志海

南方科技大学

何志海，南方科技大学电子工程系讲席教授，人工智能实验室主任, IEEE Fellow(2015)。2021年6月全职回国前就职于美国密苏里大学电子工程系18年(2003-2021)，离任前为该系Robert Lee Tatum 讲席教授。从2003 年开始，围绕人工智能物联网和智能信息物理系统开展了长期深入的前沿研究，在机器视觉、机器学习、视频网络通信、物联网等领域取得了一系列国际前沿的研究成果。荣获IEEE TCSVT国际期刊最佳论文、SPIE青年科学家等重要奖项。2019-2023年连续入选斯坦福大学全球顶级科学家终身科学影响力排行榜和年度科学影响力排行榜。

报告题目：孪生智能计算

报告摘要：物联网和人工智能和的飞速发展正在突破实与虚的边界，数字虚拟开始在协助甚至替代实体和人类去感知世界、理解世界、改造世界。孪生智能计算实现物理世界和数字世界在感知、理解、和行为上智能同步与交互。本报告将介绍孪生智能计算的技术沿革、发展趋势和动态，以及本团队在该领域的一些前期探索以及重点应用。

王耀威

哈尔滨工业大学（深圳）

王耀威，哈尔滨工业大学（深圳）教授、博士生导师，鹏城实验室视觉智能研究所所长，国家级高层次人才，享受国务院政府特殊津贴专家。致力于大规模视频智能感知领域研究，在顶级国际期刊/会议发表论文140余篇，曾承担多项国家/省部级项目，曾获国家技术发明二等奖、中国电子学会科技进步一等奖和技术发明一等奖、广东省科技进步奖特等奖。担任IEEE数字视网膜系统工作组主席、新一代人工智能产业技术创新战略联盟 AI 标准工作组“数字视网膜系统”专题组组长，牵头制定数字视网膜端边云协同技术系列标准。

报告题目：数字视网膜技术及其应用实践

报告摘要：近年来，国家社会经济的高速发展，多种类型的摄像头得到快速部署，汇聚形成海量视频图像数据亟待处理，大规模视频智能感知处理问题成为各中大型城市各行业智能化发展面临的重大挑战。基于视觉基础模型和数字视网膜架构构建了多层次多粒度的城市感知网，目前已在多类场景任务中部署，突破了城市级视频实时“感知”、“智能”处理的瓶颈问题，推动行业的智能化升级

王荣刚

北京大学

王荣刚，北京大学教授、博导，信息工程学院副院长，广东省政协委员，入选国家科技创新领军人才计划。研究方向为超高清沉浸影像智能处理，重点关注超高清沉浸影像智能生成、高效编码和交互渲染技术。承担国家科技部重点研发计划、863计划、国家自然科学基金等科研任务；发表重要国际期刊和会议论文200余篇，获得发明专利授权100余项；是中国超高清视频编码国家标准的主要技术贡献者之一，领导制定了IEEE沉浸视频编码标准和ISO/IEC MPEG互联网视频编码标准；领导研发了超高清视频实时编解码内核，为我国开通首个超高清频道做出关键技术贡献；领导研发的首套交互式自由视点观赛系统应用于2022北京冬残奥会公共信号制作，入选科技冬奥遗产名录。担任IEEE 1857.9：Immersive Visual Content Coding标准专题组长，中国音视频编码标准工作组（AVS） VR专题组长，IEEE Circuits and Systems Society(CASS) Visual Signal Processing and Communication Technical Committee委员。获得国家技术发明一等奖、中国电子学会技术发明特等奖、深圳市技术发明一等奖、IEEE标准杰出贡献奖和AVS标准贡献奖等奖励。

报告题目：三维沉浸视频智能编码技术与标准

报告摘要：国际电信联盟发布的《IMT 面向2030 及未来发展的框架和总体目标建议书》中将沉浸式通信列为6G 的六大场景之首。沉浸式通信主要包括XR 通信、全息通信等新型媒体业务。过去几十年，视频编解码技术和标准都是围绕平面视频展开的，无法满足未来6G 时代沉浸式全息通信的应用需求。本报告重点阐述三维沉浸视频重建和编码技术的新进展，国内外相关标准的制定情况，以及本团队在该领域的一些前期探索。

王诗淇

香港城市大学

王诗淇，香港城市大学副教授、博士生导师。从事视频编码与处理、人工智能、计算机视觉等方面的研究。在国内外期刊和会议上发表或已接收论文300余篇，其中包括IEEE Transactions论文100余篇，论文谷歌引用15000余次。目前担任人工智能、视频处理领域旗舰期刊IEEE TIP、TMM、TCyber和TCSVT编委，并获得IEEE ICME、VCIP、ACM Multimedia等多个国际会议和期刊的最佳论文奖。获得国家自然科学基金委优秀青年科学基金项目（港澳）、香港研究资助局杰出青年学者计划等多项项目资助。

报告题目：视频生成与紧凑表示

报告摘要：近年来，生成式人工智能迅猛发展，其由无到有的生成能力为视频的紧凑表示提供了新思路。本次报告将探索生成和紧凑表示之间的关系。同时，进一步探讨多模态大模型如何在底层视觉，如质量评价和编码任务中，利用其对视觉统计信息的先验建模实现基于语义的评价和编码。最后，我们将介绍低复杂度生成式视频编码的标准化工作，并展望未来在人体视频、自然视频和AI生成视频等领域的应用前景。

微信扫一扫：分享

大会论坛：“智联视界”：大模型时代的多媒体人工智能