DeepSeek-R1 推理测试：英伟达 GB200 NVL72 性能是 AMD MI355X 的约 28 倍

Back to Feed

Notable

国际 · 科技

人工智能推理

总结

Signal65发布SemiAnalysis InferenceMAX基准分析称，在Deepseek-R1 0528混合专家（MoE）模型推理场景中，英伟达Blackwell GB200 NVL72机架系统在相近集群配置下每GPU吞吐达75 tokens/s，约为AMD Instinct MI355X的28倍。报告认为其通过72芯片紧密互联与30TB高速共享内存提升全对全通信效率，缓解MoE扩展中的带宽与延迟瓶颈，并结合Oracle云定价测算每token成本仅为AMD方案的十五分之一且交互速率更高。同时，MI355X凭HBM3e在稠密模型场景仍具竞争力；AMD尚未推出对标NVL72的机架级方案，未来Helios与Vera Rubin平台竞争或升温。

正文

IT之家 1 月 2 日消息，Signal65 最新发布 SemiAnalysis InferenceMAX 基准测试分析报告，在 Deepseek-R1 0528 混合专家（MoE）模型推理场景中，英伟达（NVIDIA）Blackwell GB200 NVL72 机架系统性能远超 AMD 的 Instinct MI355X。 IT之家注：混合专家模型是一种高效的 AI 模型架构，典型代表之一就是 Deepseek-R1 0528，成为诸多基准测试常用的模型。图源：Signal65 它不像传统模型那样每次任务都动用整个大脑，而是拥有一群"专家"，每次只根据问题类型激活最懂行的那几个"专家"来处理，但大规模扩展时会引发节点间巨大的通信延迟和带宽压力，形成计算瓶颈。英伟达为此采用了"极致协同设计"（Extreme Co-Design）策略。GB200 NVL72 通过紧密互联 72 颗芯片，并配备 30TB 的高速共享内存，极大地优化了全对全（all-to-all）通信效率，有效解决了数据传输延迟问题。图源：英伟达测试数据显示，在类似的集群配置下，英伟达方案每 GPU 的吞吐量高达 75 tokens / 秒，其性能达到了 AMD Instinct MI355X 的 28 倍。对于超大规模云计算厂商（Hyperscalers）而言，总体拥有成本（TCO）是核心考量指标。Signal65 结合 Oracle 云定价数据分析指出，GB200 NVL72 机架不仅性能强悍，经济性同样惊人。其每 token 的相对成本仅为 AMD 方案的十五分之一，同时还提供了更高的交互速率。图源：Signal65 尽管英伟达在 MoE 领域占据统治地位，但这并不代表 AMD 已全面落败。报告指出，AMD 的 MI355X 凭借高容量 HBM3e 内存，在稠密模型（Dense Models）环境中仍是极具侵略性的选项。该媒体指出 AMD 目前尚未推出新一代机架级解决方案来应对 NVL72 的挑战。不过，随着未来 AMD Helios 平台与英伟达 Vera Rubin 平台的对决临近，双方在机架级扩展方案上的竞争将愈发激烈。相关阅读：《 Deepseek-R1 等 AI 模型测试：英伟达 GB200 NVL72 性能较 HGX 200 提升 10 倍》

发布时间：-