惊人突破,创推理性能纪录
3 月 19 日讯,英伟达在当日举办的 NVIDIA GTC 2025 大会上,正式宣告其 NVIDIA Blackwell DGX 系统成功创下 DeepSeek - R1 大模型推理性能的世界纪录。这一成就标志着英伟达在 AI 推理领域又迈出了具有里程碑意义的一步。
英伟达此次所达成的,是满血 DeepSeek - R1 模型 AI 推理性能的世界纪录。据悉,在仅搭载八块 Blackwell GPU 的单个 DGX 系统上,运行拥有 6710 亿参数的满血 DeepSeek - R1 模型时,能够实现每用户每秒超 250 token 的响应速度,而系统的最高吞吐量更是突破每秒 3 万 token,如此高效的表现着实令人惊叹。
持续提升,潜力无限
英伟达方面透露,随着 NVIDIA 平台在最新的 Blackwell Ultra GPU 和 Blackwell GPU 上不断突破推理极限,其性能提升的步伐不会停歇,未来还将持续取得进展。
从硬件配置来看,运行 TensorRT - LLM 软件的 NVL8 配置的 NVIDIA B200 GPU,单节点配置涵盖 DGX B200(8 块 GPU)与 DGX H200(8 块 GPU)。在测试参数上,最新测试采用 TensorRT - LLM 内部版本,设定输入 1024 token / 输出 2048 token,而此前测试则为输入 / 输出各 1024 token,并在并发条件下进行。在计算精度方面,B200 采用 FP4,H200 采用 FP8 精度。
英伟达进一步表明,通过巧妙结合硬件和软件,自 2025 年 1 月起,他们已成功将 DeepSeek - R1 671B 模型的吞吐量提高了约 36 倍。不仅如此,节点配置除了 DGX B200(8 块 GPU)、DGX H200(8 块 GPU)外,还涉及两个 DGX H100(8 块 GPU)系统。此次测试依然采用 TensorRT - LLM 内部版本,输入输出参数不变,同时强调并发性 MAX,计算精度上 B200 采用 FP4,H100 / H200 采用 FP8 精度。
架构结合,性能显著提升
与 Hopper 架构相比,Blackwell 架构与 TensorRT 软件相结合后,展现出了显著的推理性能提升优势。英伟达指出,对于包括 DeepSeek - R1、Llama 3.1 405B 和 Llama 3.3 70B 等模型,运行 TensorRT 软件且使用 FP4 精度的 DGX B200 平台与 DGX H200 平台相比,已经实现了 3 倍以上的推理吞吐量提升。
在模型量化方面,英伟达强调,在利用低精度计算优势对模型进行量化时,确保精度损失最小化是生产部署的关键要点。IT 之家观察到,在 DeepSeek - R1 模型上,相较于 FP8 基准精度,TensorRT Model Optimizer 的 FP4 训练后量化(PTQ)技术在不同数据集上仅仅产生了极其微小的精度损失。从具体数据来看:
精度 | MMLU | GSM8K | AIME 2024 | GPQA Diamond | MATH - 500 |
---|---|---|---|---|---|
DeepSeek R1 - FP8 | 90.8% | 96.3% | 80.0% | 69.7% | 95.4% |
DeepSeek R1 - FP4 | 90.7% | 96.1% | 80.0% | 69.2% | 94.2% |
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...