金融界大约在一个月后才开始对 DeepSeek 感到恐慌,但当它真的出现时,Nvidia 的市值就缩水了超过 5000 亿美元,相当于一部《星际之门》。不仅仅是 Nvidia,特斯拉、谷歌、亚马逊和微软也陷入了困境。
据 Scale AI 首席执行官 Alexandr Wang 称, DeepSeek 的两款 AI 模型相继发布,可与美国实验室的最佳模型相媲美。而且 DeepSeek 似乎在有限的条件下工作,这意味着它的训练成本比美国同行低得多。据说,其最新模型之一在最终训练运行中仅花费 560 万美元,这大约是美国 AI 专家的薪水。去年,Anthropic 首席执行官 Dario Amodei 表示,训练模型的成本在 1 亿至 10 亿美元之间。据首席执行官 Sam Altman 称,OpenAI 的 GPT-4 成本超过 1 亿美元。DeepSeek 似乎颠覆了我们对 AI 成本的看法,并可能对整个行业产生巨大影响。
这一切只发生在短短几周内。圣诞节当天,DeepSeek 发布了一款引发大量关注的推理模型 (v3)。其第二款模型 R1 于上周发布,被风险投资家兼特朗普总统顾问马克·安德森(Marc Andreessen) 称为“我见过的最令人惊叹、最令人印象深刻的突破之一”。特朗普的人工智能和加密专家大卫·萨克斯 (David Sacks )表示,DeepSeek 模型的进步表明“人工智能竞赛将非常激烈”。除了训练数据外,这两个模型都是部分开源的。
DeepSeek 的成功让人怀疑,是否真的需要数十亿美元的计算才能赢得人工智能竞赛。传统观点认为,大型科技公司将主宰人工智能,仅仅是因为它有闲钱来追逐进步。现在,看起来大型科技公司只是在烧钱。计算出这些模型的实际成本有点棘手,因为正如 Scale AI 的王指出的那样,由于制裁,DeepSeek 可能无法诚实地说出它拥有什么类型和多少个 GPU。
Hugging Face 研究主管 Leandro von Werra 表示,即使批评者是正确的,DeepSeek 也没有如实说明其拥有的 GPU 数量(餐巾纸数学表明他们使用的是优化技术,这意味着他们说的是实话),开源社区也很快就会发现。他的团队上周末开始复制和开源 R1 配方,一旦研究人员能够创建自己的模型版本,“我们很快就会发现数字是否正确。”
DeepSeek 成立两年,由首席执行官梁文锋领导,是中国首屈一指的人工智能初创公司。该公司由浙江大学工程师创立的对冲基金分拆而来,专注于“可能改变游戏规则的架构和算法创新”,以打造通用人工智能(AGI)——至少梁文锋是这么说的。与 OpenAI 不同,该公司还声称自己已经盈利。
2021 年,梁开始购买数千块 Nvidia GPU(就在美国对芯片实施制裁之前),并于 2023 年推出 DeepSeek,目标是“探索 AGI 的本质”,即与人类一样聪明的人工智能。梁与 OpenAI 首席执行官 Altman 和其他行业领袖有很多相同的高调观点。梁在接受采访时表示:“我们的目标就是 AGI,这意味着我们需要研究新的模型结构,以在有限的资源下实现更强大的模型能力。”
DeepSeek 正是这么做的。该团队声称,通过一些创新的技术方法,其模型可以更高效地运行,最终的 R1 训练运行成本为 560 万美元。与 OpenAI 的 o1 相比,成本降低了 95%。DeepSeek 不是从零开始,而是以现有的开源模型为起点构建了 AI——具体来说,研究人员以 Meta 的 Llama 模型为基础。虽然该公司的训练数据组合没有披露,但 DeepSeek 确实提到它使用了合成数据或人工生成的信息(随着 AI 实验室似乎遇到数据瓶颈,这可能会变得更加重要)。
如果没有训练数据,就无法确切知道这是 o1 的多少“副本”
如果没有训练数据,就无法确切知道这在多大程度上是 o1 的“复制品”——DeepSeek 是否使用 o1 来训练 R1?在 12 月第一篇论文发布时,Altman发文称“复制你知道有效的东西(相对)容易”,而“当你不知道它是否会有效时,去做一些新的、有风险的、困难的事情是极其困难的。”所以,DeepSeek 的说法是,它不会创建新的前沿模型;它只是复制旧模型。OpenAI 投资者 Joshua Kushner似乎也表示,DeepSeek“是根据美国领先的前沿模型进行训练的”。
OpenAI 前政策研究员 Miles Brundage 告诉The Verge ,R1 使用了两个关键的优化技巧:更高效的预训练和思维链推理强化学习。DeepSeek 找到了更聪明的方法来使用更便宜的 GPU 来训练其 AI,其中一部分帮助是使用一种较新的技术,要求 AI 通过反复试验(强化学习)逐步“思考”问题,而不是模仿人类。这种组合使模型能够实现 o1 级性能,同时使用更少的计算能力和资金。
Brundage 表示:“DeepSeek v3 以及之前的 DeepSeek v2 基本上是与 GPT-4 相同的模型,只是采用了更巧妙的工程技巧,以便在 GPU 方面获得更多的回报。”
需要明确的是,其他实验室也采用了这些技术(DeepSeek 使用了“专家混合”,只针对某些查询激活模型的部分功能。GPT-4 也这样做了)。DeepSeek 版本通过创建更精细的专家类别并开发更有效的沟通方式,对这一概念进行了创新,从而使训练过程本身更加高效。DeepSeek 团队还开发了一种称为 DeepSeekMLA(多头潜在注意力)的技术,通过压缩模型存储和检索信息的方式,大大减少了运行 AI 模型所需的内存。
令世界震惊的不仅仅是这些模型的架构,而是它能够在数月内如此迅速地复制 OpenAI 的成就,而不是通常人工智能重大进步之间需要一年以上的时间,布伦戴奇补充道。
OpenAI 将自己定位为能够构建先进 AI 的独特人才,而这一公众形象刚好赢得了投资者的支持,以打造全球最大的 AI 数据中心基础设施。但 DeepSeek 的快速复制表明,技术优势不会持续太久——即使公司试图保密其方法。
“这些封闭式公司在某种程度上显然依靠人们认为他们正在做最伟大的事情而生存,这就是他们维持估值的方法。也许他们为了筹集更多资金或建立更多项目而夸大了一点,”冯·维拉说。“没有人知道他们是否夸大了内部拥有的东西,显然这对他们有利。”
谈钱
自从 OpenAI 在 2022 年发布 ChatGPT以来,投资界一直对人工智能抱有幻想。问题不再是我们是否处于人工智能泡沫之中,而是“泡沫真的好吗?”(DeepWater Asset Management 在 2023 年写道:“泡沫具有不公平的负面含义。”)
目前尚不清楚投资者是否了解人工智能的工作原理,但他们仍然希望人工智能至少能带来广泛的成本节约。根据 2024 年 12 月的一份报告,普华永道调查的三分之二的投资者预计生成式人工智能将提高生产率,同样数量的投资者预计利润也会增加。
从炒作周期中受益最大的上市公司是英伟达,该公司生产人工智能公司使用的复杂芯片。人们认为,在人工智能淘金热中,购买英伟达股票就是投资制造铲子的公司。无论谁在人工智能竞赛中占主导地位,他们都需要大量英伟达芯片来运行模型。12 月 27 日,该股收于 137.01 美元——几乎是 2023 年 1 月初英伟达股价的 10 倍。
DeepSeek 的成功颠覆了推动 Nvidia 股价飙升的投资理论。如果该公司确实更有效地使用芯片(而不是简单地购买更多芯片),其他公司也会开始效仿。这可能意味着 Nvidia 最先进的芯片的市场规模会缩小,因为各家公司都在试图削减开支。
Databricks 人工智能副总裁 Naveen Rao 表示:“Nvidia 的增长预期确实有些‘乐观',所以我认为这是必要的反应。Nvidia 目前的收入不太可能受到威胁;但过去几年的大幅增长却会。”
Nvidia 并不是唯一一家受到这一投资理论提振的公司。七巨头——Nvidia、Meta、亚马逊、特斯拉、苹果、微软和 Alphabet——在 2023 年的表现优于其他市场,价值增长了 75%。他们在 2024 年延续了这一惊人的牛市,除微软外,每家公司的表现都优于标准普尔 500 指数。其中,只有苹果和 Meta 没有受到 DeepSeek 相关溃败的影响。
这股热潮并不局限于公开市场。随着风险投资公司纷纷向该领域投入资金, OpenAI 和 Anthropic 等初创公司的估值也达到了惊人的水平——分别为1570 亿美元和600 亿美元。盈利能力并不是一个大问题。OpenAI预计 2024 年将亏损 50 亿美元,尽管其预计收入为 37 亿美元。
DeepSeek 的成功表明,仅仅投入大量资金并不像许多公司和投资者想象的那样具有保护作用。它暗示小型初创公司可以与巨头竞争得更具竞争力——甚至可以通过技术创新颠覆知名领导者。因此,虽然这对大公司来说是个坏消息,但对小型人工智能初创公司来说却可能是个好消息,特别是因为它的模型是开源的。
正如牛市至少部分是心理因素一样,抛售也可能是心理因素。Hugging Face 的 von Werra 认为,更便宜的训练模型实际上不会减少 GPU 需求。“如果你可以在较小规模上构建一个超强模型,为什么不再次扩大规模呢?”他问道。“你自然会想办法做更便宜的事情,为什么不扩大规模并构建一个更昂贵但更好的版本呢。”
优化是必需的
但 DeepSeek 不仅扰乱了投资格局,也是中国对美国的一次明确警告。DeepSeek 模型所取得的进步表明,即使实施出口管制,中国也可以轻松赶上美国最先进的技术。
兰德公司专家伦纳特·海姆和牛津大学专门研究产业政策的博士生黄思浩表示,对最先进芯片的出口管制于 2023 年 10 月正式开始,相对较新,其全部影响尚未显现。
美国和中国采取了截然相反的做法。中国的 DeepSeek 表明,尽管计算能力有限,你仍可以通过优化实现创新,而美国则大举押注于原始实力——正如 Altman 与特朗普合作的 5000 亿美元星际之门项目所见。
“像 DeepSeek 的 R1 这样的推理模型需要使用大量 GPU,正如 DeepSeek 在其应用中服务更多用户时很快遇到的麻烦一样,”Brundage 说道。“考虑到这一点,以及扩大强化学习将使 DeepSeek 的模型比现在更强大,美国对 GPU 实施有效的出口管制比以往任何时候都更为重要。”
对于其他人来说,出口管制似乎适得其反:它们非但没有减缓中国的发展,反而推动了创新
DeepSeek 的聊天机器人在应用商店排名中已经超越了 ChatGPT,但它也存在严重的问题。据《华尔街日报》报道,中国的初创公司需要“提交 5,000 到 10,000 个问题的数据集,模型将拒绝回答这些问题,其中大约一半与政治意识形态和对共产党的批评有关” 。 该 应用程序屏蔽了对台湾民主和天安门广场等敏感话题的讨论,而用户数据则流向中国的服务器——这引发了审查和隐私方面的担忧。
有些人对 DeepSeek 的成就是否如描述的那样表示怀疑。花旗分析师 Atif Malik 在一份研究报告中表示:“我们质疑这种说法,即 DeepSeek 的成就是否是在没有使用先进的 GPU 进行微调和/或构建最终模型所基于的底层 LLM 的情况下实现的。” Bernstein 分析师 Stacy Rasgon 在自己的报告中表示:“‘中国以 500 万美元复制 OpenAI'的说法似乎是绝对错误的,我们认为这确实不值得进一步讨论。”
对于其他人来说,出口管制似乎适得其反:出口管制非但没有减缓中国的发展,反而促进了创新。虽然美国限制了先进芯片的获取,但 DeepSeek 和阿里巴巴的 Qwen 等中国公司找到了创造性的解决方法——优化训练技术,利用开源技术,同时开发自己的芯片。
毫无疑问,有人会想知道这对 AGI 意味着什么,最精明的 AI 专家认为,AGI 是一个空想,目的是为了吸引资本。(去年 12 月,OpenAI 的 Altman明显降低了 AGI 的标准,从可以“提升人类”的东西降到了“比人们想象的要无足轻重得多”的东西。)因为 AI 超级智能仍然只是一种想象,很难知道它是否有可能实现——更不用说 DeepSeek 已经朝着这个方向迈出了合理的一步。从这个意义上说,鲸鱼标志是正确的;这是一个充满亚哈的行业。AI 的最终结果仍是任何人的猜测。
未来的人工智能领导者要求
人工智能一直是个过度发展的故事:数据中心消耗的能源规模相当于小国,训练耗资数十亿美元,而且只有科技巨头才能玩这个游戏。对很多人来说,DeepSeek 似乎完全颠覆了这种想法。
虽然看起来 DeepSeek 之类的模型可以通过降低训练成本来解决破坏环境的人工智能问题,但不幸的是,事情并没有那么简单。Brundage 和 von Werra 都认为,更高效的资源意味着公司可能会使用更多的计算来获得更好的模型。Von Werra 还表示,这意味着规模较小的初创公司和研究人员将能够更轻松地访问最佳模型,因此对计算的需求只会增加。
DeepSeek 对合成数据的使用也并非革命性的,尽管它确实表明人工智能实验室可以在不抢劫整个互联网的情况下创造一些有用的东西。但这种损害已经造成了;互联网只有一个,它已经训练了将成为下一代基础的模型。合成数据并不是寻找更多训练数据的完整解决方案,但它是一种有前途的方法。
DeepSeek 所做的最重要的事情很简单:更便宜。你不必懂技术就能明白,强大的人工智能工具可能很快就会变得更加便宜。人工智能领导者承诺,进步将很快到来。一个可能的变化可能是,现在有人可以在车库里制造前沿模型。
AGI 竞赛很大程度上是虚构的。然而,金钱却是真实存在的。DeepSeek 已经有力地证明了,金钱本身并不能让一家公司占据该领域的领先地位。其长期影响可能会重塑我们所熟知的 AI 行业。