DeepSeek：你需要了解的有关 AI 聊天机器人应用程序的一切

AI1个月前更新小强

DeepSeek：你需要了解的有关 AI 聊天机器人应用程序的一切插图

DeepSeek 已经走红。

本周，中国人工智能实验室 DeepSeek 的聊天机器人应用登上了苹果应用商店排行榜（以及谷歌应用商店）榜首，引起了主流关注。DeepSeek 的人工智能模型采用计算效率高的技术进行训练，这让华尔街分析师和技术专家开始质疑美国能否在人工智能竞赛中保持领先地位，以及对人工智能芯片的需求是否能持续下去。

但是DeepSeek从何而来？它又是如何如此迅速地获得国际声誉的？

DeepSeek 的交易员起源

DeepSeek 得到了 High-Flyer Capital Management 的支持，这是一家中国量化对冲基金，使用人工智能来指导其交易决策。

人工智能爱好者梁文峰于 2015 年与他人共同创立了 High-Flyer。据报道，梁文峰在浙江大学读书时就开始涉足交易，2019 年他创立了 High-Flyer Capital Management，这是一家专注于开发和部署人工智能算法的对冲基金。

2023 年，High-Flyer 成立了 DeepSeek，作为一家独立于金融业务的实验室，致力于研究人工智能工具。在 High-Flyer 成为其投资者之一的情况下，该实验室分拆为一家独立公司，也被称为 DeepSeek。

从第一天起，DeepSeek 就建立了自己的数据中心集群进行模型训练。但与中国其他人工智能公司一样，DeepSeek 也受到美国硬件出口禁令的影响。为了训练其最新的一个模型，该公司被迫使用 Nvidia H800 芯片，这是美国公司可用的芯片 H100 的低功率版本。

旧金山 | 4 月 3 日

立即注册

据悉，DeepSeek 的技术团队以年轻人为主。据报道，该公司积极招募来自中国顶尖大学的博士级人工智能研究人员。据《纽约时报》报道，DeepSeek 还聘请没有任何计算机科学背景的人员，以帮助其技术更好地理解各种主题。

DeepSeek 的强大模型

2023 年 11 月，DeepSeek 推出了其首组模型——DeepSeek Coder、DeepSeek LLM 和 DeepSeek Chat。但直到去年春天，这家初创公司发布了其下一代 DeepSeek-V2 系列模型，人工智能行业才开始注意到它。

DeepSeek-V2 是一款通用的文本和图像分析系统，在各种 AI 基准测试中表现良好，而且运行成本远低于当时的同类模型。它迫使 DeepSeek 的国内竞争对手（包括字节跳动和阿里巴巴）降低部分模型的使用价格，并让其他模型完全免费。

DeepSeek-V3于 2024 年 12 月推出，进一步增加了 DeepSeek 的知名度。

根据 DeepSeek 的内部基准测试，DeepSeek V3 的表现优于可下载、公开可用的模型（如 Meta 的 Llama）以及只能通过 API 访问的“封闭”模型（如 OpenAI 的GPT-4o）。

同样令人印象深刻的是 DeepSeek 的 R1“推理”模型。DeepSeek 于 1 月发布，声称R1 在关键基准测试中的表现与 OpenAI 的 o1 模型一样好。

作为一个推理模型，R1 可以有效地对自身进行事实核查，这有助于它避免一些通常会使模型陷入困境的陷阱。与典型的非推理模型相比，推理模型需要更长的时间（通常要多几秒到几分钟）才能得出解决方案。好处是它们在物理、科学和数学等领域往往更可靠。

然而，R1、DeepSeek V3 和 DeepSeek 的其他模型也存在缺点。作为中国开发的人工智能，它们需要接受中国互联网监管机构的基准测试，以确保其回应“体现社会主义核心价值观”。例如，在 DeepSeek 的聊天机器人应用中，R1 不会回答有关天安门广场或台湾自治的问题。

颠覆性方法

如果 DeepSeek 有商业模式，那么具体是什么还不清楚。该公司的产品和服务定价远低于市场价值，并免费提供其他产品和服务。尽管有大量风险投资公司对其感兴趣，但它也不接受投资者的资金。

DeepSeek 表示，效率突破使其能够保持极高的成本竞争力。然而，一些专家对该公司提供的数据提出质疑。

不管怎样，开发人员已经接受了 DeepSeek 的模型，这些模型并非人们通常理解的开源模型，而是在允许商业使用的宽松许可下提供的。据托管 DeepSeek 模型的平台之一 Hugging Face 的首席执行官 Clem Delangue 称，Hugging Face 上的开发人员已经创建了 500 多个 R1 的“衍生”模型，总下载量已达 250 万次。

DeepSeek 在与规模更大、更成熟的竞争对手的较量中取得的成功被描述为“颠覆人工智能”和“炒作过度”。该公司的成功至少在一定程度上导致Nvidia 的股价在 1 月份下跌了 18%，并引发了OpenAI 首席执行官 Sam Altman 的公开回应。

微软宣布 DeepSeek 已在其 Azure AI Foundry 服务上推出，该平台将企业的 AI 服务整合到一个品牌下。在第一季度财报电话会议上，当被问及 DeepSeek 对 Meta 的 AI 支出的影响时，首席执行官马克·扎克伯格表示，AI 基础设施方面的支出将继续成为Meta 的“战略优势”。3 月份，OpenAI 称 DeepSeek 是“国家补贴”和“国家控制”的，并建议美国政府考虑禁止 DeepSeek 的模型。

在 Nvidia 第四季度财报电话会议上，首席执行官黄仁勋强调了 DeepSeek 的“卓越创新”，并表示它和其他“推理”模型对 Nvidia 来说非常有用，因为他们需要更多的计算能力。

与此同时，一些公司正在禁用DeepSeek ，包括韩国在内的一些国家和政府也在禁用。纽约州还禁止在政府设备上使用DeepSeek。

至于 DeepSeek 的未来，目前尚不清楚。改进模型是必然的。但美国政府似乎越来越警惕它所认为的有害外国影响。3 月，《华尔街日报》报道称，美国可能会禁止在政府设备上使用 DeepSeek。