近日,由著名 AI 研究者 François Chollet 共同创立的 Arc Prize 基金会推出了一项新测试 ——ARC-AGI-2,用于衡量 AI 模型的通用智能水平。据基金会博客介绍,这项测试对多数领先 AI 模型构成了严峻挑战。
根据 Arc Prize 排行榜数据,OpenAI 的 o1-pro、DeepSeek 的 R1 等 “推理型” AI 模型在 ARC-AGI-2 测试中得分仅在 1% 至 1.3% 之间,而像 GPT-4.5、Claude3.7Sonnet 和 Gemini2.0Flash 等更为强大的非推理模型,得分也大约在 1%。ARC-AGI 测试包含一系列拼图问题,要求 AI 从不同颜色方块中识别视觉模式,并生成正确 “答案” 网格,这些问题旨在迫使 AI 适应未曾见过的新问题。
为了建立人类基准,Arc Prize 基金会邀请了超过 400 人参与 ARC-AGI-2 测试,平均得分为 60%,远超任何 AI 模型得分。Chollet 表示,ARC-AGI-2 比前版 ARC-AGI-1 更能有效测量 AI 模型的实际智能,新的测试旨在评估 AI 系统是否能高效获取超出训练数据的新技能。
与 ARC-AGI-1 相比,ARC-AGI-2 在设计上改进了多个方面,特别是引入 “效率” 新指标,并要求模型在不依赖记忆的情况下即时解释模式。正如 Arc Prize 基金会共同创始人 Greg Kamradt 所言,智力不仅体现在解决问题的能力上,效率同样关键。
值得注意的是,OpenAI 的 o3 模型在 ARC-AGI-1 中曾以 75.7% 的得分无人能敌,直到 2024 年才被超越,但在 ARC-AGI-2 中得分仅为 4%,且每个任务计算成本高达 200 美元。ARC-AGI-2 的发布正值技术界对新的 AI 进展衡量标准呼声渐高之时。Hugging Face 联合创始人 Thomas Wolf 曾表示,AI 行业缺乏足够测试来衡量人工通用智能的关键特征,包括创造力。
与此同时,Arc Prize 基金会还宣布了 2025 年的 Arc Prize 竞赛,挑战开发者在 ARC-AGI-2 测试中达到 85% 的准确率,且每个任务花费仅为 0.42 美元。
划重点:
🌟 ARC-AGI-2 是 Arc Prize 基金会新推出的测试,旨在衡量 AI 的通用智能水平。
📉 目前顶尖 AI 模型在该测试中得分普遍较低,远不及人类平均水平。
🏆 Arc Prize 基金会还将举办挑战赛,鼓励开发者以低成本提升 AI 在新测试中的表现。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...