在人工智能快速发展的当下,大语言模型(LLMs)正逐渐成为能够执行复杂任务的自主智能体。然而,它们在多轮决策任务中仍面临诸多挑战。为了突破这些限制,Meta AI 公司与加州大学伯克利分校强强联合,推出了一种名为 SWEET-RL 的新型强化学习框架,并发布了 CollaborativeAgentBench(ColBench)基准测试。
项目背景
目前,大语言模型在单轮反馈或模仿高概率行为的训练方法下,难以有效处理长期依赖和累积目标,导致其在协作场景中表现不佳,尤其是在理解人类意图和进行多步骤推理方面。这严重制约了它们在实际应用场景中的发挥。
SWEET-RL 的创新之处
SWEET-RL 采用非对称的 “演员 - 评论家” 结构,评论家在训练过程中可以访问额外信息(如正确答案),从而更精准地评估演员的决策。该框架直接建模逐轮的优势函数,简化了信用分配过程,并与 LLMs 的预训练架构更好地对齐。
实验结果显示,在后端编程任务中,SWEET-RL 将开源模型(如 Llama-3.1-8B)的通过率提升至 48.0%;在前端设计任务中,余弦相似度达到 76.9%,显著优于其他多轮强化学习方法,展现了其在与专有模型(如 GPT-4o)竞争中的巨大潜力。
ColBench 基准测试
ColBench 包含超过 10000 个训练任务和 1000 个测试案例,能够模拟真实的人机协作场景。任务设计涵盖后端编程(如 Python 函数编写)和前端设计(如 HTML 代码生成),并限制每轮交互最多 10 次。
通过单元测试通过率(代码)和余弦相似度(设计)来评估模型表现,ColBench 为多轮任务提供了可靠的评估标准。
SWEET-RL 框架的推出,为提升大语言模型在多轮人机协作任务中的表现提供了新的思路和方法,有望在更多领域实现 AI 与人类的高效协作,让 AI 更加智能、精准地理解和执行人类的意图。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...