DeepSeek-R1 一周年:中國開源模型從追隨者變引領者,下代旗艦 Model1 技術細節曝光

2026-05-24 · 來源:鉅亨網
重點摘要

DeepSeek一周年回顧及下代旗艦Model1現蹤,中國開源AI進入爆發期具重大戰略意義

2025 年 1 月,DeepSeek 發布 R1 模型,一年後已成為 Hugging Face 上獲讚最多的模型。這個節點值得認真對待,因為它標誌的不只是一款模型的成功,而是中國 AI 開源生態從邊緣走向中心的結構性轉變。

R1 的影響力不在於當時的模型排名,而在於它同時拆解了三道壁壘。技術上,DeepSeek 公開訓練方法與推理路徑,讓高階推理能力從封閉 API 變成可下載、可微調的工程模組;授權上,MIT 協議讓企業能直接用於生產環境,競爭焦點從「模型分數」轉移到「系統整合成本」;心理上,它向全球證明算力受限的環境下仍能做出突破,中國 AI 開發者的信心從此不同。

這個示範效應在一年內產生了可量化的擴散。根據 Hugging Face 數據,百度 2025 年開源發布量從 2024 年的零激增至超過 100 個項目,字節跳動與騰訊的發布量各成長 8 至 9 倍。月之暗面推出的 Kimi K2 被稱為另一個「DeepSeek 時刻」。更值得注意的是,智譜 AI、阿里巴巴 Qwen、騰訊之間形成了一種非正式的協作形態——不是聯盟協議,而是在相同算力限制與合規壓力下走向相似工程路徑,結果是中國開發模型在 Hugging Face 上的下載量超越了美國模型。

R1 的地緣影響同樣值得注意。東南亞與非洲市場因其低成本與多語言支持廣泛採用;即便在西方,2025 年 11 月美國發布的領先開源模型 Cogito v2.1,本質上是對 DeepSeek-V3 微調的產物。美國為此發起「ATOM(美國真正開源模型)」計畫,試圖奪回開源主導權——這本身就說明 DeepSeek 已成為全球開源研發的實質基準。

在一周年節點上,DeepSeek 的 FlashMLA 代碼庫頻繁更新,出現代號「Model1」的模型,技術專家判斷這極可能是 DeepSeek-V4 的開發代號。從已洩漏的程式碼細節來看,Model1 有幾項明確的技術方向:MLA 架構維度調整為 512 維標準結構,以配合 NVIDIA Blackwell(SM100)架構;針對 B200 GPU 的稀疏 MLA 算子在未完全優化狀態下已達 350 TFlops;引入「Token-level Sparse MLA」機制應對長上下文場景,並帶入 VVPA(數值向量位置感知)與 Engram 機制,指向 KV 壓縮與分散式存儲的新方向。

對亞太商業決策者而言,這個格局有兩層實際意義。第一,開源 AI 的成本結構已被永久改變,任何仍以高授權費評估 AI 導入成本的組織,都需要重新試算。第二,中國開源生態的自我強化速度比多數預期更快,Model1 若按照技術線索兌現,DeepSeek 將繼續作為全球開源基準壓縮美國閉源模型的定價空間。

原文出處
原文標題 「DeepSeek時刻」1周年:下一代旗艦Model1現蹤、中國開源AI進入爆發期 | 鉅亨網 - 科技
媒體來源 鉅亨網
發布日期 2026-05-24
閱讀原文 ↗

訂閱品富智圖 AI 新聞

每日 AI 產業要聞彙整,一封信直送信箱。