NVIDIA Blackwell 橫掃 MLPerf Training 6.0 全項目,GB300 較 GB200 訓練速度提升最高 1.6 倍
NVIDIA Blackwell橫掃MLPerf Training 6.0,確立AI訓練基礎設施市場領導地位
AI 訓練基礎設施的競爭,本質是誰能讓模型最快跑完一輪迭代。MLPerf Training 6.0 的結果給了一個清楚答案:NVIDIA Blackwell 是目前唯一完整提交全部七項測試的平台,且在每一項都拿下最快訓練時間。這不是局部勝出,是全面清場。
本輪測試新增兩項 MoE 預訓練任務——DeepSeek-V3 671B 與 GPT-OSS-20B,直接回應業界向混合專家架構遷移的現實。NVIDIA 分別以 GB200 NVL72 與新一代 GB300 NVL72 提交結果,後者在同等規模下訓練速度最高比前者快 1.6 倍,驅動因素是更高的 NVFP4 算力密度、更大記憶體容量,以及更高的功耗上限讓 GPU 能持續維持峰值性能。規模方面,NVIDIA 在 DeepSeek-V3 671B 測試中擴展至 8,192 顆 GPU,是本輪 Blackwell 提交中最大規模的叢集;CoreWeave 在這個規模上用 GB300 NVL72 達到 2.02 分鐘的訓練品質目標,Microsoft Azure 則在同規模下完成 Llama 3.1 405B 訓練,耗時 7.07 分鐘。
數字背後有一個容易被忽略的細節:NVLink 第五代交換器把每個機架內 72 顆 GPU 連成統一的算力與記憶體池,讓它們在邏輯上等同一顆超大 GPU。MoE 架構的核心挑戰是 token 必須跨 GPU 路由至對應的專家子網路,這個 all-to-all 通訊的頻寬瓶頸,正是 NVLink 的設計切入點。換言之,NVIDIA 不是單純把 GPU 堆更快,而是把互連架構與訓練工作負載的特性做了深度共同設計,這才是競爭對手最難在短期內複製的部分。
對亞太商業決策者而言,這份結果的意義不只是一張跑分排名表。Cohere 在 CoreWeave 的 GB200 NVL72 上把旗下 North 代理 AI 平台的訓練速度提升 3 倍;Nebius 雲端上的 Higgsfield 將模型訓練時間縮短 30%,目前日均生成超過 600 萬件 AI 內容、服務 2,200 萬用戶——這些都是訓練速度直接兌換成商業吞吐量的具體案例。訓練跑得更快,意味著同樣的算力預算可以跑更多實驗輪次,模型迭代週期縮短,產品上市時間跟著壓縮。對於正在評估自建 AI 訓練叢集還是上雲的企業,GB300 對 GB200 的 1.6 倍差距是一個需要納入 TCO 計算的硬數字。
NVIDIA 在這輪測試中同時強調生產環境的韌性——30 道以上的出廠測試、晶片級自癒機制、Spectrum-X Ethernet 毫秒級鏈路重路由,以及 NVRx 故障恢復框架讓訓練任務從 checkpoint 續跑而非整個重來。這些功能在 benchmark 裡不直接顯現,但在真實跑數週甚至數月的大規模訓練任務中,韌性就是有效算力。競爭格局看起來短期不會逆轉:19 個生態夥伴提交成績,本身就是一道護城河——越多 CSP 和 OEM 圍繞同一平台優化,整個系統的調校深度就越難被後來者追平。
訂閱品富智圖 AI 新聞
每日 AI 產業要聞彙整,一封信直送信箱。
