微信里点“发现”,扫一下
二维码便可将本文分享至朋友圈
演讲摘要:知识检索增强技术为大语言引入了额外的知识源,有效地缓解了幻觉问题与知识时效性问题,迅速成为优化大模型实践中的一项关键技术。在技术迭代的过程中,RAG(Retrieval Augmented Generation)与结构索引优化、知识图谱、向量数据库、大模型微调、提示工程等多项技术深度融合,众多功能模块相继被提出,这对研究人员全面理解RAG 构成了挑战。本次报告将从范式、关键技术与应用发展等角度对 RAG 进行全面梳理和分析,旨在从更高层面把握技术发展趋势和未来方向。通过对当前研究现状的综合分析,我们提出了模块化 RAG 与 RAG Flow 的研究范式,总结了 6 大功能模块,包含 50 余个算子操作,并从百余篇论文中凝练出了 7 种典型的 RAG Flow 设计模式,为 RAG 系统的设计提供指导。基于这些范式,我们进一步推进了 OpenRAG 系列的开源工作,构建了 OpenRAG Knowledge Base,全面覆盖了 RAG 研究人员和开发者所需的信息,并提供了支持高度自定义的多维度分析视图;同时,我们搭建了 OpenRAG Playground,协助研究人员和工程师快速搭建前沿的基线方法,并在公开或自定义数据集上进行快速验证以及不同 RAG Flow 效果的比较。
讲者简介:王昊奋,同济大学百人计划特聘研究员,博士生导师。他是全球最大的中文开放知识图谱联盟 OpenKG 发起人之一。他负责参与多项国家级 AI 相关项目,发表 100 余篇 AI 领域高水平论文,被引用次数达到 3800 余次,H-index达到 29。目前,他担任中国计算机学会术语工委副主任,SIGKG 主席,上海秘书长,自然语言处理专委会秘书长等社会职位。