DeepSeek-R1 與 Kimi k1.5 正面挑戰 OpenAI o1,中國推理模型追趕速度創新高
DeepSeek與Kimi推出媲美OpenAI o1的推理模型,中國AI實力縮差引發全球關注。
2025 年 1 月,DeepSeek 與 Moonshot AI 在同一週內分別發布 DeepSeek-R1 與 Kimi k1.5,兩款模型均在核心數學與推理基準上逼近甚至超越 OpenAI o1,標誌著中美 AI 差距正以前所未有的速度縮小。
DeepSeek-R1 最值得關注的,不只是成績數字,而是訓練方法本身。研究團隊首次公開驗證了「純強化學習(RL)不經監督微調即可使模型習得推理能力」,這相當於讓模型跳過課堂直接靠試錯學習,過程中自發出現反思、策略重評等湧現行為。最終版 DeepSeek-R1 在 AIME 和 MATH 基準分別拿下 79.8 與 97.4,超越 o1;MMLU 達 90.8,略低於 o1 但高於 GPT-4o 與 Claude-3.5-Sonnet。更具商業衝擊力的是定價:R1 輸出費用為每百萬 token 2.19 美元,相比 o1 的 60 美元,差距達 27 倍。模型以 MIT 授權完全開源。
Kimi k1.5 的切入點不同。Moonshot AI 將 RL 的上下文視窗擴展至 128k tokens,並在不使用蒙地卡羅樹搜尋(MCTS)等複雜方法的前提下,在 AIME 拿到 77.5、MATH 500 達 96.2、Codeforces 排名第 94 百分位。其「long2short」技術讓長鏈式推理(long-CoT)訓練出的能力遷移至短推理模型,大幅降低推論成本,短 CoT 版本在 GPT-4o 與 Claude Sonnet 3.5 的同類對比中全面領先。
中國實驗室追趕速度本身就是這次事件最重要的訊號。OpenAI 發布 GPT-4 後,中國需要 12 至 18 個月才能推出同等水準模型;o1 在 2024 年 9 月亮相,DeepSeek 在兩個月後的 11 月就預覽了 R1。從 o1 發布至今四個月,已有近十家中國企業推出同類推理模型,包括阿里巴巴、智譜 AI、上海 AI Lab、科大訊飛等。技術複製的周期幾乎已壓縮至與原創發布同步。
背後有結構性原因。Test-time compute 範式相對於預訓練更「省資源」,在出口管制限制高端 AI 晶片的前提下,這條路對中國實驗室尤其具吸引力。蒸餾技術的門檻更低——上海交大的研究顯示,用數萬條 o1 蒸餾樣本微調基座模型,就能在 AIME 上超過 o1-preview。但 MiniMax CEO 也點出蒸餾的天花板:對齊另一個模型的輸出,能力本身會受到限制。
對亞太商業決策者來說,這一輪的意義不只是「中國模型夠用了」。DeepSeek-R1 的定價與開源組合,直接重構了企業部署推理模型的成本基準;任何正在評估 o1 API 的應用開發者,現在都有了一個數量級更便宜的可比替代方案。Moonshot AI 背後有阿里巴巴 33 億美元估值背書,其多模態推理能力則指向視覺理解場景的下一個競爭層。
DeepSeek CEO 梁文鋒說得直接:「中國 AI 不能永遠是追隨者,真正的差距在於創新與模仿之間。」R1 的 RL 訓練方法是否構成真正的原創突破,業界仍有爭議,但這次開源動作本身的戰略意圖已很清晰——用透明度換生態影響力,讓全球開發者基於中國模型構建應用。這條路一旦走通,對 OpenAI 的護城河威脅,遠比單純的 benchmark 數字更深。
訂閱品富智圖 AI 新聞
每日 AI 產業要聞彙整,一封信直送信箱。
