集团新闻

  • 首页
  • 集团新闻
  • NVIDIA突破DeepSeek推理性能记录:每秒3万Tokens!

NVIDIA突破DeepSeek推理性能记录:每秒3万Tokens!

2025-04-01 19:47:31



NVIDIA在2025 GTC大会上宣布了重大突破 - 搭载8颗Blackwell GPU的DGX系统在DeepSeek-R1模型(6710亿参数)推理任务中创下世界纪录:

·单用户推理速度超过每秒250个token

·峰值吞吐量超过每秒30,000个token

核心技术创新

Blackwell架构升级

·第五代Tensor Core支持FP4精度,AI算力提升5倍

·第五代NVLink和NVLink Switch带宽提高2倍

·扩展NVLink网络域规模能力

TensorRT生态系统优化

1.TensorRT Model Optimizer 0.25

·支持Blackwell FP4精度

NVIDIA突破DeepSeek推理性能记录:每秒3万Tokens!

·提供量化、蒸馏、剪枝等优化技术

2.TensorRT-LLM 0.17

·针对Blackwell架构深度优化

·支持动态批处理、KV缓存管理等特性

3.主流框架支持

·PyTorch、JAX、TensorFlow全面支持Blackwell

·vLLM与Ollama已完成适配

性能提升效果

与上一代Hopper架构相比:

·Llama 3系列和DeepSeek-R1推理吞吐量提升3倍以上

6686体育官网下载

·FP4精度下显存占用降低5.2倍

·图像生成速度提升3倍

应用场景突破

1.大语言模型推理

·DeepSeek-R1、Llama 3.1(405B)等模型性能大幅提升

·保持高精度的同时显著降低延迟

2.AI图像生成

·Flux.1模型系列在FP4精度下性能显著提升

·图像质量保持不变的同时提升生成速度

这些突破性进展标志着NVIDIA在AI推理性能方面达到了新的高度,为未来AI应用的大规模部署奠定了基础。

本文源自金融界