DeepSeek:你需要了解的有关 AI 聊天机器人应用程序的一切

AI1个月前更新 小强
1 0 0

DeepSeek:你需要了解的有关 AI 聊天机器人应用程序的一切插图

已经走红。

本周,中国人工智能实验室 DeepSeek 的 聊天机器人应用登上了苹果应用商店排行榜以及应用商店)榜首,引起了主流关注。DeepSeek 的人工智能模型采用计算效率高的进行训练,这 让华尔街分析师和技术专家开始 质疑 美国 能否在人工智能竞赛中保持领先地位,以及对人工智能芯片的需求是否能持续下去。

但是DeepSeek从何而来?它又是如何如此迅速地获得国际声誉的?

DeepSeek 的交易员起源

DeepSeek 得到了 High-Flyer Capital Management 的支持,这是一家中国量化对冲基金,使用人工智能来指导其交易决策。

人工智能爱好者梁文峰于 2015 年与他人共同创立了 High-Flyer。据报道,梁文峰在浙江大学读书时就开始涉足交易,2019 年他创立了 High-Flyer Capital Management,这是一家专注于开发和部署人工智能算法的对冲基金。

2023 年,High-Flyer 成立了 DeepSeek,作为一家独立于金融业务的实验室,致力于研究人工智能工具。在 High-Flyer 成为其投资者之一的情况下,该实验室分拆为一家独立公司,也被称为 DeepSeek。

从第一天起,DeepSeek 就建立了自己的数据中心集群进行模型训练。但与中国其他人工智能公司一样,DeepSeek 也受到美国硬件出口禁令的影响。为了训练其最新的一个模型,该公司被迫使用 Nvidia H800 芯片,这是美国公司可用的芯片 H100 的低功率版本。

StrictlyVC 旧金山
与 Forerunner Ventures、Kalshi、Flexport 和 Mach Industries 的领导者一起预订席位,获得独家 VC 见解和优质交流。席位几乎售罄!
旧金山 | 4 月 3 日

立即注册

据悉,DeepSeek 的技术团队以年轻人为主。据报道,该公司积极招募来自中国顶尖大学的博士级人工智能研究人员。据《纽约时报》报道,DeepSeek 还聘请没有任何计算机科学背景的人员,以帮助其技术更好地理解各种主题。

DeepSeek 的强大模型

2023 年 11 月,DeepSeek 推出了其首组模型——DeepSeek Coder、DeepSeek LLM 和 DeepSeek Chat。但直到去年春天,这家初创公司发布了其下一代 DeepSeek-V2 系列模型,人工智能行业才开始注意到它。

DeepSeek-V2 是一款通用的文本和图像分析系统,在各种 基准测试中表现良好,而且运行成本远低于当时的同类模型。它迫使 DeepSeek 的国内竞争对手(包括巴巴)降低部分模型的使用价格,并让其他模型完全免费。

DeepSeek-V3于 2024 年 12 月推出,进一步增加了 DeepSeek 的知名度。

根据 DeepSeek 的内部基准测试,DeepSeek V3 的表现优于可下载、公开可用的模型(如 的 Llama)以及只能通过 API 访问的“封闭”模型(如 GPT-4o)

同样令人印象深刻的是 DeepSeek 的 R1“推理”模型。DeepSeek 于 1 月发布,声称R1 在关键基准测试中的表现与 OpenAI 的 o1 模型一样好

作为一个推理模型,R1 可以有效地对自身进行事实核查,这有助于它避免一些通常会使模型陷入困境的陷阱。与典型的非推理模型相比,推理模型需要更长的时间(通常要多几秒到几分钟)才能得出解决方案。好处是它们在物理、科学和数学等领域往往更可靠。

然而,R1、DeepSeek V3 和 DeepSeek 的其他模型也存在缺点。作为中国开发的人工智能,它们需要接受 中国互联网监管机构的基准测试 ,以确保其回应“体现社会主义核心价值观”。例如,在 DeepSeek 的聊天机器人应用中,R1 不会回答有关天安门广场或台湾自治的问题。

颠覆性方法

如果 DeepSeek 有商业模式,那么具体是什么还不清楚。该公司的产品和服务定价远低于市场价值,并免费提供其他产品和服务。尽管有大量风险投资公司对其感兴趣,但它也不接受投资者的资金。

DeepSeek 表示,效率突破使其能够保持极高的成本竞争力。然而,一些专家对该公司提供的数据提出质疑。

不管怎样,开发人员已经接受了 DeepSeek 的模型,这些模型并非人们通常理解的模型,而是在允许商业使用的宽松许可下提供的。据托管 DeepSeek 模型的平台之一 Hugging Face 的首席执行官 Clem Delangue 称,Hugging Face 上的开发人员已经创建了 500 多个 R1 的“衍生”模型,总下载量已达 250 万次。

DeepSeek 在与规模更大、更成熟的竞争对手的较量中取得的成功被描述为“颠覆人工智能”“炒作过度”。该公司的成功至少在一定程度上导致Nvidia 的股价在 1 月份下跌了 18%,并引发了OpenAI 首席执行官 Sam Altman 的公开回应。

宣布 DeepSeek 已在其 Azure AI Foundry 服务上推出,该平台将企业的 AI 服务整合到一个品牌下。在第一季度财报电话会议上,当被问及 DeepSeek 对 Meta 的 AI 支出的影响时,首席执行官马克·扎克伯格表示,AI 基础设施方面的支出将继续成为Meta 的“战略优势”。3 月份,OpenAI 称 DeepSeek 是“国家补贴”和“国家控制”的,并建议美国政府考虑禁止 DeepSeek 的模型。

在 Nvidia 第四季度财报电话会议上,首席执行官黄仁勋强调了 DeepSeek 的“卓越创新”,并表示它和其他“推理”模型对 Nvidia 来说非常有用,因为他们需要更多的计算能力。

与此同时,一些公司正在禁用DeepSeek ,包括韩国在内的一些国家政府也在禁用。纽约州还禁止在政府设备上使用DeepSeek。

至于 DeepSeek 的未来,目前尚不清楚。改进模型是必然的。但美国政府似乎越来越警惕它所认为的有害外国影响。3 月,《华尔街日报》报道称,美国可能会禁止在政府设备上使用 DeepSeek

© 版权声明

相关文章

暂无评论

none
暂无评论...