高中生打造《我的世界》AI模型评测平台，开启全民评判新时代

AI1个月前发布小强

在人工智能技术风起云涌的当下，如何精准、有效地评估和比较不同生成式 AI 模型的能力，成为摆在开发者面前的一道难题。传统评估方式渐渐暴露出局限性，促使人们探索更具创新性的解决方案。

近日，一个名为 “Minecraft Benchmark”（简称 MC-Bench）的评测网站崭露头角。它的独特之处在于，借助广受欢迎的沙盒游戏《我的世界》作为平台，让用户通过对比不同 AI 模型根据提示创建的游戏作品，来评估它们的优劣。令人惊讶的是，这一创意平台的缔造者，竟是一名高中生。

《我的世界》变身 AI 竞技场

MC-Bench 网站提供了一种直观且趣味十足的 AI 模型评测方式。开发者将不同提示输入到参与测试的 AI 模型中，模型生成相应的《我的世界》建筑。用户在不知晓哪个作品由哪个 AI 模型创建的情况下，对建筑进行投票，选出他们心中更符合提示、更为出色的作品。投票结束后，用户才能看到每个建筑背后的 “创造者”。这种 “盲选” 机制，旨在更客观地反映 AI 模型的实际生成能力。

Adi Singh 表示，选择《我的世界》作为基准测试平台，不仅因为它是史上最畅销的电子游戏，拥有庞大的玩家群体，更因为人们对游戏的视觉风格极为熟悉。即使是没有玩过这款游戏的人，也能轻松判断出哪个由方块构成的建筑更符合现实逻辑。在 Singh 看来，“《我的世界》让人们更容易看到 AI 发展的进步”，这种可视化的评估方式，比单纯的文本指标更具说服力。

功能聚焦

目前，MC-Bench 主要围绕相对简单的建筑任务展开，例如根据 “冰霜之王” 或 “在原始沙滩上的迷人热带小屋” 等提示，让 AI 模型编写代码创建相应游戏结构。本质上，这是一个编程基准测试，但其巧妙之处在于，用户无需深入研究复杂代码，仅凭直观视觉效果就能判断作品优劣，这极大提升了项目的参与度和数据收集潜力。

MC-Bench 的设计理念，旨在让大众更直观地感受 AI 技术发展水平。Singh 说道：“目前的排行榜与我个人使用这些模型的体验非常吻合，这与许多纯文本基准测试不同。” 他相信，MC-Bench 或许能为相关公司提供有价值的参考，助力他们判断自身 AI 研发方向是否正确。

尽管 MC-Bench 由 Adi Singh 发起，但背后有一批志愿贡献者的支持。包括 Anthropic、谷歌、OpenAI 和阿里巴巴在内的多家顶尖 AI 公司，都为该项目提供了使用其产品的补贴，以运行基准测试。不过，网站声明这些公司并未以其他方式与项目关联。

对于 MC-Bench 的未来，Singh 充满期待。目前的简单建筑只是起点，未来可能拓展到更长期的计划和目标导向任务。他认为，游戏有望成为测试 AI “代理推理” 能力的安全且可控媒介，这在现实生活中难以实现，因此在测试方面更具优势。

开创性的 AI 评估新思路

除了 MC-Bench，其他游戏如《街头霸王》和《你画我猜》也曾被用作 AI 的实验性基准测试，这反映出 AI 基准测试的复杂性和技巧性。传统标准化评估存在 “主场优势”，因为 AI 模型在训练中已针对某些特定问题优化，尤其在需要记忆或基本推断的问题上表现出色。例如，OpenAI 的 GPT-4 在 LSAT 考试中取得 88% 的优秀成绩，却无法分辨 “strawberry” 中有多少个 “R”。

Anthropic 的 Claude3.7Sonnet 在标准化软件工程基准测试中达到 62.3% 的准确率，但在玩《宝可梦》方面表现不如五岁小孩。

MC-Bench 的出现，为评估生成式 AI 模型能力提供了新颖且易懂的视角。借助大众熟知的游戏平台，它将复杂的 AI 技术能力转化为直观视觉对比，让更多人参与 AI 评估与认知。尽管其实际价值仍在讨论，但无疑为我们观察 AI 发展打开新窗口。