開源模型密集發布:Gemma 4、DeepSeek V4、Kimi K2.6 等主力模型同期登場,CAISI 安全評估引發能力差距爭議
一次性梳理Gemma 4、DeepSeek V4、Kimi K2.6等多個開源前沿模型,含CAISI安全評估,對決策者掌握開源格局具高參考價值。
2025年7月前後,開源 AI 模型進入密集發布期,DeepSeek、Google、Moonshot、Xiaomi、GLM 等主要實驗室幾乎同步推出旗艦更新,使開源前沿格局在短時間內出現顯著位移。
本輪最受矚目的幾個發布:Google 推出 Gemma 4 系列,提供 4B、9B、31B 稠密模型與 26B-A4B MoE 架構,更重要的是將授權改為 Apache 2.0,終結了過去自定義授權帶來的法律模糊地帶,大幅降低企業採用門檻。DeepSeek 則發布 V4 系列,分為 Pro(1.6T-A49B MoE)與 Flash(284B-13B)兩款,依據使用者實測,規模較小的 Flash 表現反而更受肯定,Pro 的實際產出相對規模而言略顯不足;技術報告著重說明其長上下文性能的架構改進。Moonshot 的 Kimi K2.6 持續強化長時程任務能力,已有案例顯示模型可連續執行數小時完成複雜任務。小米的 MiMo-V2.5-Pro 以 Apache 2.0 發布,在多項 benchmark 與實際使用中已與 Kimi K2.6、GLM-5.1 並列,距一年前首次亮相已有顯著進展。
本輪最具爭議的背景是美國聯邦標準機構 CAISI(Center for AI Standards and Innovation)針對 DeepSeek V4 發布的安全評估報告。CAISI 採用基於 Item Response Theory 的 Elo 評分方法,整合九項 benchmark,結論是開源模型整體落後美國閉源前沿,且差距隨時間擴大。然而,Interconnects 編輯團隊對此結論提出實質質疑:CAISI 的 Elo 差距很大程度上由三項特定 benchmark 主導——CTF-Archive-Diamond(僅對 V4 運行子集並以 IRT 外推)、CAISI 私有的 PortBench,以及採用非公開標準評分的 ARC-AGI-2,少數幾項測試對總分影響過大,統計上容易放大差距。此外,Epoch AI 的 ECI 指標(同樣使用 IRT 跨 benchmark 整合)顯示開源與閉源的差距大致維持在 R1 發布後的 3 至 7 個月之間,並未如 CAISI 呈現的那般急劇擴大。
更根本的問題在於評測設定本身的局限。現有 benchmark 普遍採用標準化、簡化的執行環境——例如編程任務僅允許 bash 與固定 token 預算的 for 迴圈,而非模型實際訓練所用的 Claude Code、OpenCode 等 harness——導致評測結果與真實部署能力存在結構性落差。文章以 Bun 框架從 Zig 移植至 Rust(逾百萬行程式碼)為例,說明現實中已可完成的任務在現行 benchmark 下卻被判定為「尚不可行」。
對亞太商業決策者而言,這一波發布有幾個值得關注的面向:其一,授權趨勢正在改善,Gemma 4 與 MiMo-V2.5-Pro 均採 Apache 2.0,企業部署的合規成本降低;其二,中國實驗室(DeepSeek、Moonshot、Xiaomi、GLM)幾乎在同一時間窗口推出更新,顯示亞洲開源生態的迭代節奏已與全球同步甚至部分領先;其三,CAISI 的評估結論在方法論上存在可辯空間,決策者在引用「開源落後閉源」的敘事時,應留意評測設定與實際使用場景之間的落差,避免高估或低估開源模型在特定業務場景下的實際能力。
訂閱品富智圖 AI 新聞
每日 AI 產業要聞彙整,一封信直送信箱。
