Back to Feed
总结
Signal65发布SemiAnalysis InferenceMAX基准分析称,在Deepseek-R1 0528混合专家(MoE)模型推理场景中,英伟达Blackwell GB200 NVL72机架系统在相近集群配置下每GPU吞吐达75 tokens/s,约为AMD Instinct MI355X的28倍。报告认为其通过72芯片紧密互联与30TB高速共享内存提升全对全通信效率,缓解MoE扩展中的带宽与延迟瓶颈,并结合Oracle云定价测算每token成本仅为AMD方案的十五分之一且交互速率更高。同时,MI355X凭HBM3e在稠密模型场景仍具竞争力;AMD尚未推出对标NVL72的机架级方案,未来Helios与Vera Rubin平台竞争或升温。
正文
IT之家 1 月 2 日消息,Signal65 最新发布 SemiAnalysis InferenceMAX 基准测试分析报告,在 Deepseek-R1 0528 混合专家(MoE)模型推理场景中, 英伟达(NVIDIA)Blackwell GB200 NVL72 机架系统性能远超 AMD 的 Instinct MI355X。 IT之家注:混合专家模型是一种高效的 AI 模型架构,典型代表之一就是 Deepseek-R1 0528,成为诸多基准测试常用的模型。 图源:Signal65 它不像传统模型那样每次任务都动用整个大脑,而是拥有一群"专家",每次只根据问题类型激活最懂行的那几个"专家"来处理,但大规模扩展时会引发节点间巨大的通信延迟和带宽压力,形成计算瓶颈。 英伟达为此采用了"极致协同设计"(Extreme Co-Design)策略。GB200 NVL72 通过紧密互联 72 颗芯片,并配备 30TB 的高速共享内存,极大地优化了全对全(all-to-all)通信效率,有效解决了数据传输延迟问题。 图源:英伟达 测试数据显示,在类似的集群配置下,英伟达方案每 GPU 的吞吐量高达 75 tokens / 秒, 其性能达到了 AMD Instinct MI355X 的 28 倍。 对于超大规模云计算厂商(Hyperscalers)而言,总体拥有成本(TCO)是核心考量指标。Signal65 结合 Oracle 云定价数据分析指出,GB200 NVL72 机架不仅性能强悍,经济性同样惊人。其每 token 的相对成本仅为 AMD 方案的十五分之一,同时还提供了更高的交互速率。 图源:Signal65 尽管英伟达在 MoE 领域占据统治地位,但这并不代表 AMD 已全面落败。报告指出,AMD 的 MI355X 凭借高容量 HBM3e 内存,在稠密模型(Dense Models)环境中仍是极具侵略性的选项。 该媒体指出 AMD 目前尚未推出新一代机架级解决方案来应对 NVL72 的挑战。不过,随着未来 AMD Helios 平台与英伟达 Vera Rubin 平台的对决临近,双方在机架级扩展方案上的竞争将愈发激烈。 相关阅读: 《 Deepseek-R1 等 AI 模型测试:英伟达 GB200 NVL72 性能较 HGX 200 提升 10 倍 》
发布时间: