SuperCLUE大模型测评结果揭晓,豆包1.5、商汤日日新V6并列国内第一

AI2周前更新 小强
11 00

2025年5月28日,权威测评机构发布《中文大模型基准测评2025年5月报告》,·深度思考模型与商汤日日新V6多模态模型并列国内第一,在国内大模型第一梯队领先,同时报告揭示了国内外大模型在中文领域通用能力差距的变化及国内推理模型竞争格局的新态势。

测评结果公布,豆包1.5与商汤日日新V6并列国内榜首

5月28日,SuperCLUE《中文大模型基准测评2025年5月报告》全新出炉。豆包1.5·深度思考模型(Doubao-1.5-thinking-pro)和 V6多模态模型(SenseNova-V6 Reasoner)共同摘得金牌,超越 2.5 Flash Preview,于国内大模型第一梯队领跑。

第二梯队大模型及整体格局

位居第二梯队的大模型有-R1、NebulaCoder-V6、Hunyuan-T1以及DeepSeek-V3。同时,SuperCLUE报告指出,国内外第一梯队大模型在中文领域的通用能力差距正在缩小。在国产大模型里,Doubao-1.5-thinking-pro-205415、SenseNova V6 Reasoner表现最为亮眼,国内推理模型竞争格局初露端倪。

测评基准与任务涵盖

SuperCLUE是行业权威的通用大模型的综合性测评基准。本次2025年5月报告聚焦通用能力测评,涵盖数学推理、科学推理、、智能体、精确指令遵循、文本理解与创作六大任务,总量为1579道多轮简答题。

© 版权声明

相关文章

暂无评论

none
暂无评论...