腾讯近日推出其最新大型语言模型——混元-T1,并声称该模型在推理能力上可与 OpenAI 的顶级推理系统相媲美。
据腾讯介绍,混元-T1 在训练过程中大量运用强化学习,高达 96.7% 的训练后算力用于增强模型的逻辑推理能力及与人类偏好的契合度。
在多项基准测试中,混元-T1 展现出卓越性能。在涵盖 14 个学科知识的 MMLU-PRO 评估中,该模型取得 87.2 分,略低于 OpenAI 的 o1 模型。在科学推理领域,混元-T1 在 GPQA-diamond 测试中获得 69.3 分。
尤为突出的是,腾讯强调混元-T1 在数学领域的出色表现。其在 MATH-500 基准测试中斩获高达 96.2 分的成绩,仅次于 Deepseek-R1。此外,该模型在代码生成(LiveCodeBench:64.9 分)和高难度推理(ArenaHard:91.9 分)等方面亦有上佳表现。腾讯还指出,混元-T1 在多项中文任务上的准确率逾 90%。
在训练方法上,腾讯采用课程学习法,逐步提升任务难度。同时,创新性地开发自我奖励系统,利用模型早期版本评估新版本输出,驱动模型性能持续提升。
混元-T1 采用 Transformer Mamba 混合架构,腾讯称在相同条件下,该架构处理长文本速度是传统模型两倍。目前,Hunyuan-T1 已经通过腾讯云对外开放,并且在 Hugging Face 上提供了演示。
此次发布是继百度和阿里巴巴相继推出其声称达到 o1 水平的自研模型后,中国科技巨头在 AI 领域竞争的又一关键举措。值得注意的是,阿里巴巴、百度和 Deepseek 均在积极推行开源战略。人工智能投资者、前谷歌中国区总裁李开复此前曾公开表示,这些中国 AI 模型的发展对 OpenAI 构成潜在生存威胁。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...