近日,通义实验室自然语言智能团队正式对外发布并开源了 VRAG-RL,这是一款基于视觉感知驱动的多模态 RAG 推理框架,专为攻克 AI 在实际业务场景中从图像、表格、设计稿等视觉语言里检索关键信息并开展精细化推理的难题而生。
在复杂视觉文档知识库中检索并推理关键信息,向来是 AI 领域难以跨越的障碍。常规的检索增强型生成(RAG)方法在处理包含丰富视觉元素的信息时往往捉襟见肘,关键原因在于它们对图像、图表等视觉内容的应对能力有限,而且现存的视觉 RAG 方法受制于固定的检索 - 生成流程,无法深度挖掘视觉信息中的核心知识。
为打破这一僵局,VRAG-RL 框架在强化学习赋能多模态智能体训练、视觉感知机制设计以及检索与推理协同优化这三大关键维度上实现了全方位创新突破。它创新性地引入了多元化的视觉感知动作,像区域选择、裁剪、缩放等操作,助力模型从粗粒度层面逐步过渡到细粒度层面,精准聚焦信息密集区域,进而高效提取关键视觉信息。这种由粗到细的感知模式,大幅提升了模型对视觉信息的解读能力,同时检索效率也得到了显著改善。
在模型训练环节,VRAG-RL 运用多专家采样策略,巧妙融合大规模模型的强大推理能力与专家模型精准的标注能力,促使模型得以学习更为高效的视觉感知策略。并且,其细粒度奖励机制将检索效率、模式一致性以及生成质量这三大关键因素有机结合,引导模型在与搜索引擎交互过程中持续优化检索与推理路径。这种多维度协同的奖励机制,实现了检索与推理的双向驱动,构建起闭环优化体系。
VRAG-RL 还率先引入了业界领先的 GRPO 算法,借助本地部署搜索引擎模拟真实世界应用场景,成功实现搜索引擎调用零成本,让模型训练过程更为高效流畅。这种独特的训练方式,不仅显著增强模型的泛化能力,更使其在不同领域、各类视觉任务场景下均能稳定发挥出色性能。
从实验数据来看,VRAG-RL 在众多视觉语言基准数据集上的表现可圈可点,全面超越现有方法,涵盖了从单跳到多跳推理、从纯文本理解到图表识别以及复杂布局解析等丰富多样的视觉场景任务。无论是传统的基于提示(prompt-based)的方法,还是基于强化学习的方法,VRAG-RL 均以更优的综合性能脱颖而出。
值得一提的是,VRAG-RL 支持多轮交互模式,在推理阶段能够逐步锁定信息密集区域,实现从粗到细的信息获取过程。同时,该方法通过优化检索效率与推理路径,在保障高效运行的前提下,大幅提升了模型在视觉任务上的表现水准。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...