NVIDIA Blackwell 橫掃 MLPerf Training 6.0 全項目，GB300 較 GB200 訓練速度提升最高 1.6 倍

2026-06-17 · 來源：NVIDIA AI Blog

重點摘要

NVIDIA Blackwell橫掃MLPerf Training 6.0，確立AI訓練基礎設施市場領導地位

AI 訓練基礎設施的競爭，本質是誰能讓模型最快跑完一輪迭代。MLPerf Training 6.0 的結果給了一個清楚答案：NVIDIA Blackwell 是目前唯一完整提交全部七項測試的平台，且在每一項都拿下最快訓練時間。這不是局部勝出，是全面清場。

本輪測試新增兩項 MoE 預訓練任務——DeepSeek-V3 671B 與 GPT-OSS-20B，直接回應業界向混合專家架構遷移的現實。NVIDIA 分別以 GB200 NVL72 與新一代 GB300 NVL72 提交結果，後者在同等規模下訓練速度最高比前者快 1.6 倍，驅動因素是更高的 NVFP4 算力密度、更大記憶體容量，以及更高的功耗上限讓 GPU 能持續維持峰值性能。規模方面，NVIDIA 在 DeepSeek-V3 671B 測試中擴展至 8,192 顆 GPU，是本輪 Blackwell 提交中最大規模的叢集；CoreWeave 在這個規模上用 GB300 NVL72 達到 2.02 分鐘的訓練品質目標，Microsoft Azure 則在同規模下完成 Llama 3.1 405B 訓練，耗時 7.07 分鐘。

數字背後有一個容易被忽略的細節：NVLink 第五代交換器把每個機架內 72 顆 GPU 連成統一的算力與記憶體池，讓它們在邏輯上等同一顆超大 GPU。MoE 架構的核心挑戰是 token 必須跨 GPU 路由至對應的專家子網路，這個 all-to-all 通訊的頻寬瓶頸，正是 NVLink 的設計切入點。換言之，NVIDIA 不是單純把 GPU 堆更快，而是把互連架構與訓練工作負載的特性做了深度共同設計，這才是競爭對手最難在短期內複製的部分。

對亞太商業決策者而言，這份結果的意義不只是一張跑分排名表。Cohere 在 CoreWeave 的 GB200 NVL72 上把旗下 North 代理 AI 平台的訓練速度提升 3 倍；Nebius 雲端上的 Higgsfield 將模型訓練時間縮短 30%，目前日均生成超過 600 萬件 AI 內容、服務 2,200 萬用戶——這些都是訓練速度直接兌換成商業吞吐量的具體案例。訓練跑得更快，意味著同樣的算力預算可以跑更多實驗輪次，模型迭代週期縮短，產品上市時間跟著壓縮。對於正在評估自建 AI 訓練叢集還是上雲的企業，GB300 對 GB200 的 1.6 倍差距是一個需要納入 TCO 計算的硬數字。

NVIDIA 在這輪測試中同時強調生產環境的韌性——30 道以上的出廠測試、晶片級自癒機制、Spectrum-X Ethernet 毫秒級鏈路重路由，以及 NVRx 故障恢復框架讓訓練任務從 checkpoint 續跑而非整個重來。這些功能在 benchmark 裡不直接顯現，但在真實跑數週甚至數月的大規模訓練任務中，韌性就是有效算力。競爭格局看起來短期不會逆轉：19 個生態夥伴提交成績，本身就是一道護城河——越多 CSP 和 OEM 圍繞同一平台優化，整個系統的調校深度就越難被後來者追平。

原文出處

原文標題 Fastest, Largest, Strongest: NVIDIA Blackwell Sweeps MLPerf Training 6.0

媒體來源 NVIDIA AI Blog

發布日期 2026-06-16

閱讀原文 ↗

NVIDIA Blackwell 橫掃 MLPerf Training 6.0 全項目，GB300 較 GB200 訓練速度提升最高 1.6 倍

訂閱品富智圖 AI 新聞