NVIDIA突破DeepSeek推理性能记录:每秒3万Tokens!
NVIDIA在2025 GTC大会上宣布了重大突破 - 搭载8颗Blackwell GPU的DGX系统在DeepSeek-R1模型(6710亿参数)推理任务中创下世界纪录:
·单用户推理速度超过每秒250个token
·峰值吞吐量超过每秒30,000个token
核心技术创新
Blackwell架构升级
·第五代Tensor Core支持FP4精度,AI算力提升5倍
·第五代NVLink和NVLink Switch带宽提高2倍
·扩展NVLink网络域规模能力
TensorRT生态系统优化
1.TensorRT Model Optimizer 0.25
·支持Blackwell FP4精度
·提供量化、蒸馏、剪枝等优化技术
2.TensorRT-LLM 0.17
·针对Blackwell架构深度优化
·支持动态批处理、KV缓存管理等特性
3.主流框架支持
·PyTorch、JAX、TensorFlow全面支持Blackwell
·vLLM与Ollama已完成适配
性能提升效果
与上一代Hopper架构相比:
·Llama 3系列和DeepSeek-R1推理吞吐量提升3倍以上
6686体育官网下载·FP4精度下显存占用降低5.2倍
·图像生成速度提升3倍
应用场景突破
1.大语言模型推理
·DeepSeek-R1、Llama 3.1(405B)等模型性能大幅提升
·保持高精度的同时显著降低延迟
2.AI图像生成
·Flux.1模型系列在FP4精度下性能显著提升
·图像质量保持不变的同时提升生成速度
这些突破性进展标志着NVIDIA在AI推理性能方面达到了新的高度,为未来AI应用的大规模部署奠定了基础。
本文源自金融界