Meta 携手伯克利推出 SWEET-RL 框架：让 AI 在多轮协作中更懂人类意图

AI1个月前发布小强

在人工智能快速发展的当下，大语言模型（LLMs）正逐渐成为能够执行复杂任务的自主智能体。然而，它们在多轮决策任务中仍面临诸多挑战。为了突破这些限制，Meta AI 公司与加州大学伯克利分校强强联合，推出了一种名为 SWEET-RL 的新型强化学习框架，并发布了 CollaborativeAgentBench（ColBench）基准测试。

项目背景

目前，大语言模型在单轮反馈或模仿高概率行为的训练方法下，难以有效处理长期依赖和累积目标，导致其在协作场景中表现不佳，尤其是在理解人类意图和进行多步骤推理方面。这严重制约了它们在实际应用场景中的发挥。

SWEET-RL 的创新之处

SWEET-RL 采用非对称的 “演员 - 评论家” 结构，评论家在训练过程中可以访问额外信息（如正确答案），从而更精准地评估演员的决策。该框架直接建模逐轮的优势函数，简化了信用分配过程，并与 LLMs 的预训练架构更好地对齐。

实验结果显示，在后端编程任务中，SWEET-RL 将开源模型（如 Llama-3.1-8B）的通过率提升至 48.0%；在前端设计任务中，余弦相似度达到 76.9%，显著优于其他多轮强化学习方法，展现了其在与专有模型（如 GPT-4o）竞争中的巨大潜力。

ColBench 基准测试

ColBench 包含超过 10000 个训练任务和 1000 个测试案例，能够模拟真实的人机协作场景。任务设计涵盖后端编程（如 Python 函数编写）和前端设计（如 HTML 代码生成），并限制每轮交互最多 10 次。

通过单元测试通过率（代码）和余弦相似度（设计）来评估模型表现，ColBench 为多轮任务提供了可靠的评估标准。

SWEET-RL 框架的推出，为提升大语言模型在多轮人机协作任务中的表现提供了新的思路和方法，有望在更多领域实现 AI 与人类的高效协作，让 AI 更加智能、精准地理解和执行人类的意图。

AI AI资讯 # Meta

文章版权归作者所有，未经允许请勿转载。

微信小店政策更新：禁售 AI 商业课程，鼓励技术知识传播

AI AI资讯 # AI商业应用 # AI课程 # 微信小店

1个月前

010

据报道，人工智能编码助手 Cursor 会告诉“氛围编码员”编写自己的代码

AI AI资讯 # Cursor # 人工智能

1个月前

010

生成式AI过时了？黄仁勋带你解锁AI新未来

AI AI资讯 # Agentic AI # ai # 代理式 AI

1个月前

010

谷歌拆分 Pixie 项目，聚焦 Gemini 多任务处理能力提升

AI AI资讯 # AI助手 # Gemini # GeminiNano

4周前

000

暂无评论

暂无评论...

Meta 携手伯克利推出 SWEET-RL 框架：让 AI 在多轮协作中更懂人类意图