DeepSeek 近日悄然发布了其最新力作——大型语言模型 DeepSeek-V3-0324,在人工智能行业内引发了轩然大波。这款容量高达 641GB 的模型在 Hugging Face 上低调现身,延续了该公司一贯的低调风格,却凭借其卓越的性能和开放的商用策略,迅速成为行业焦点。
性能飙升:多项指标超越 Claude Sonnet3.5
DeepSeek-V3-0324 的发布之所以备受瞩目,不仅因其功能强大,更因其在部署方式和许可协议上的创新。早期测试者报告称,新模型在各项指标上都取得了巨大进步。AI 研究员 Xeophon 在 X 平台上表示,DeepSeek V3 在其内部测试中“所有测试的所有指标都有了巨大飞跃”,并声称其现在是“最好的非推理模型,取代了 Sonnet3.5”。如果这一说法得到更广泛的验证,DeepSeek 的新模型将超越 Anthropic 备受尊敬的商业 AI 系统 Claude Sonnet3.5。
开源商用:打破付费壁垒,惠及大众
与需要订阅才能使用的 Sonnet 不同,DeepSeek-V3-0324 的模型权重完全免费,任何人都可以下载和使用。更重要的是,该模型采用了 MIT 许可证,这意味着它可以自由地用于商业用途。这种开放的姿态与西方 AI 公司通常将模型置于付费墙之后的做法形成了鲜明对比,使得更多的开发者和企业能够受益于这一先进的 AI 技术。
技术突破:MoE 架构与效率革命
DeepSeek V3-0324 的突破性架构实现了无与伦比的效率。该模型采用了混合专家(MoE)架构,从根本上改变了大型语言模型的运行方式。与传统模型在每个任务中激活所有参数不同,DeepSeek 的方法在特定任务中仅激活其 6850 亿参数中的约 370 亿个。这种选择性激活代表了模型效率的巨大转变,使其在大幅降低计算需求的同时,实现了与更大的完全激活模型相当的性能。
此外,该模型还融入了两项额外的突破性技术:多头潜在注意力(MLA)和多令牌预测(MTP)。MLA 增强了模型在长文本中保持上下文的能力,而 MTP 则可以每步生成多个令牌,而不是通常的一次生成一个。这些创新共同将输出速度提高了近 80%。
硬件友好:消费级设备也能驾驭
开发者工具创建者 Simon Willison 在一篇博客文章中指出,一个 4 位量化版本将存储占用减少到 352GB,这使得在高端消费级硬件(如配备 M3Ultra 芯片的 Mac Studio)上运行成为可能。AI 研究员 Awni Hannun 在社交媒体上写道:“新的 DeepSeek-V3-0324 在配备 mlx-lm 的 512GB M3Ultra 上以 >20 个 tokens/秒的速度运行!” 尽管 9499 美元的 Mac Studio 可能超出了“消费级硬件”的定义,但在本地运行如此庞大的模型与通常需要数据中心级 AI 基础设施的最新 AI 形成了鲜明对比。
Mac Studio 在推理过程中的功耗不到 200 瓦,而传统的 AI 基础设施通常依赖于消耗数千瓦功率的多个 Nvidia GPU。
风格转变:更重技术,专业定位
早期用户报告称,新模型的沟通风格发生了明显的变化。之前的 DeepSeek 模型因其对话式的、类似人类的语调而受到赞扬,而“V3-0324”则呈现出更正式、更注重技术的风格。一些用户在 Reddit 上表达了这种变化,认为新版本听起来“不那么像人类”,失去了以前版本“像人类一样的语调”。这种转变可能反映了 DeepSeek 工程师的有意识设计选择,旨在将模型重新定位为更专业的和技术性的应用。
开放战略:重新定义全球 AI 格局
DeepSeek 的发布策略体现了中国和西方公司在 AI 商业理念上的根本差异。美国领导者如 OpenAI 和 Anthropic 将其模型置于付费墙之后,而中国 AI 公司则越来越倾向于采用宽松的开源许可。这种开放性正在迅速改变中国的 AI 生态系统,使得初创公司、研究人员和开发者能够在先进的 AI 技术基础上进行创新,而无需大量的资本支出。包括百度、阿里巴巴和腾讯在内的中国科技巨头也纷纷推出或计划推出开源 AI 模型。在获取尖端 Nvidia 芯片受限的情况下,中国公司更加重视效率和优化,这反而成为了一种潜在的竞争优势。
DeepSeek-V3-0324 的发布也被认为是其下一代推理模型 DeepSeek-R2 的基础。考虑到 Nvidia 首席执行官黄仁勋最近指出 DeepSeek 的 R1 模型“比非推理 AI 消耗多 100 倍的计算量”,DeepSeek 在资源受限的情况下实现如此性能令人瞩目。
目前,用户可以通过 Hugging Face 下载完整的模型权重,也可以通过 OpenRouter 等平台体验 DeepSeek-V3-0324 的 API 接口。DeepSeek 自己的聊天界面也可能已更新至新版本。DeepSeek 的开放战略正在重新定义全球 AI 格局,预示着一个更开放、更普及的 AI 创新时代的到来。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...