腾讯混元 - T1 推理模型性能逼近 OpenAI o1，解码速度提升 2 倍成关键

AI1个月前发布小强

腾讯近日推出其最新大型语言模型——混元-T1，并声称该模型在推理能力上可与 OpenAI 的顶级推理系统相媲美。

据腾讯介绍，混元-T1 在训练过程中大量运用强化学习，高达 96.7% 的训练后算力用于增强模型的逻辑推理能力及与人类偏好的契合度。

在多项基准测试中，混元-T1 展现出卓越性能。在涵盖 14 个学科知识的 MMLU-PRO 评估中，该模型取得 87.2 分，略低于 OpenAI 的 o1 模型。在科学推理领域，混元-T1 在 GPQA-diamond 测试中获得 69.3 分。

尤为突出的是，腾讯强调混元-T1 在数学领域的出色表现。其在 MATH-500 基准测试中斩获高达 96.2 分的成绩，仅次于 Deepseek-R1。此外，该模型在代码生成（LiveCodeBench：64.9 分）和高难度推理（ArenaHard：91.9 分）等方面亦有上佳表现。腾讯还指出，混元-T1 在多项中文任务上的准确率逾 90%。

在训练方法上，腾讯采用课程学习法，逐步提升任务难度。同时，创新性地开发自我奖励系统，利用模型早期版本评估新版本输出，驱动模型性能持续提升。

混元-T1 采用 Transformer Mamba 混合架构，腾讯称在相同条件下，该架构处理长文本速度是传统模型两倍。目前，Hunyuan-T1 已经通过腾讯云对外开放，并且在 Hugging Face 上提供了演示。

此次发布是继百度和阿里巴巴相继推出其声称达到 o1 水平的自研模型后，中国科技巨头在 AI 领域竞争的又一关键举措。值得注意的是，阿里巴巴、百度和 Deepseek 均在积极推行开源战略。人工智能投资者、前谷歌中国区总裁李开复此前曾公开表示，这些中国 AI 模型的发展对 OpenAI 构成潜在生存威胁。