苹果机器学习研究中心:现有AI大模型依赖模式匹配与记忆,不具备真正推理能力

AI7天前发布 小强
0 00

当地时间6月6日,苹果机器学习研究中心发表论文,指出当前模型看似能生成“思考链”,实则依赖模式匹配与记忆,并非真正在推理。研究通过对前沿大型推理模型的系统评估,揭示其推理能力的局限,并质疑现有评估范式,在AI领域引发广泛关注。

苹果研究:现有推理能力存根本局限
苹果机器学习研究中心于当地时间6月6日发表的论文《思考的幻象:通过问题复杂性的视角理解推理模型的优势与局限》指出,现有AI模型并不具备真正的思维能力或推理能力。研究人员对 o3 - mini、 - R1、 3.7 Sonnet Thinking和 Thinking等前沿“大型推理模型”进行评估后发现,尽管这些模型能生成详细“思考链”,在中等复杂度任务上有优势,但推理能力存在根本性局限。当问题复杂度超过特定临界点,模型性能会完全崩溃至“零准确率”。此外,在推理过程中,即便有充足推理算力,模型用于“思考”的token数量反而随难度上升而减少。

当前评估范式受质疑,需新实验设置
该研究表明,当前业界对这些模型的评估主要集中在数学和编程基准测试上,关注最终答案的准确性,却忽略了数据污染问题,也无法提供有关内部推理轨迹结构和质量的洞见。为此,研究人员采用了一系列可控的解谜环境,如跳棋交换、过河谜题、汉诺塔、积木世界等,这些谜题可精确操纵组成复杂性,同时保持逻辑结构的一致性,以便深入探究模型是如何“思考”的。

模型在不同复杂度任务中的表现
研究团队提出,模型表现可分为三个阶段:在低复杂度任务中,传统(如Claude - 3.7无思维版本)表现更佳;中等复杂度任务里,具备思维机制的大型推理模型(LRMs)更占优势;而高复杂度任务时,两类模型均陷入完全失效状态。特别是,研究发现LRMs在执行精确计算方面存在局限性,无法使用显式算法且跨不同谜题进行推理时表现出不一致性。

研究意义:引发对AI模型推理本质的思考
总的来说,这项研究不仅质疑了当前基于已建立数学基准的LRMs评估范式,还强调了需要更加细致的实验设置来探索这些问题。通过使用可控制的谜题环境,本研究提供了对语言推理模型能力和局限性的深刻见解,并为未来的研究指明方向。诚如研究人员所说,“这些发现突出了现有LRMs的优点和局限性,引发了关于这些系统推理本质的问题,这对它们的设计和部署具有重要意义”。

© 版权声明

相关文章

暂无评论

none
暂无评论...