開源模型密集發布：Gemma 4、DeepSeek V4、Kimi K2.6 等主力模型同期登場，CAISI 安全評估引發能力差距爭議

2026-05-16 · 來源：Interconnects

重點摘要

一次性梳理Gemma 4、DeepSeek V4、Kimi K2.6等多個開源前沿模型，含CAISI安全評估，對決策者掌握開源格局具高參考價值。

2025年7月前後，開源 AI 模型進入密集發布期，DeepSeek、Google、Moonshot、Xiaomi、GLM 等主要實驗室幾乎同步推出旗艦更新，使開源前沿格局在短時間內出現顯著位移。

本輪最受矚目的幾個發布：Google 推出 Gemma 4 系列，提供 4B、9B、31B 稠密模型與 26B-A4B MoE 架構，更重要的是將授權改為 Apache 2.0，終結了過去自定義授權帶來的法律模糊地帶，大幅降低企業採用門檻。DeepSeek 則發布 V4 系列，分為 Pro（1.6T-A49B MoE）與 Flash（284B-13B）兩款，依據使用者實測，規模較小的 Flash 表現反而更受肯定，Pro 的實際產出相對規模而言略顯不足；技術報告著重說明其長上下文性能的架構改進。Moonshot 的 Kimi K2.6 持續強化長時程任務能力，已有案例顯示模型可連續執行數小時完成複雜任務。小米的 MiMo-V2.5-Pro 以 Apache 2.0 發布，在多項 benchmark 與實際使用中已與 Kimi K2.6、GLM-5.1 並列，距一年前首次亮相已有顯著進展。

本輪最具爭議的背景是美國聯邦標準機構 CAISI（Center for AI Standards and Innovation）針對 DeepSeek V4 發布的安全評估報告。CAISI 採用基於 Item Response Theory 的 Elo 評分方法，整合九項 benchmark，結論是開源模型整體落後美國閉源前沿，且差距隨時間擴大。然而，Interconnects 編輯團隊對此結論提出實質質疑：CAISI 的 Elo 差距很大程度上由三項特定 benchmark 主導——CTF-Archive-Diamond（僅對 V4 運行子集並以 IRT 外推）、CAISI 私有的 PortBench，以及採用非公開標準評分的 ARC-AGI-2，少數幾項測試對總分影響過大，統計上容易放大差距。此外，Epoch AI 的 ECI 指標（同樣使用 IRT 跨 benchmark 整合）顯示開源與閉源的差距大致維持在 R1 發布後的 3 至 7 個月之間，並未如 CAISI 呈現的那般急劇擴大。

更根本的問題在於評測設定本身的局限。現有 benchmark 普遍採用標準化、簡化的執行環境——例如編程任務僅允許 bash 與固定 token 預算的 for 迴圈，而非模型實際訓練所用的 Claude Code、OpenCode 等 harness——導致評測結果與真實部署能力存在結構性落差。文章以 Bun 框架從 Zig 移植至 Rust（逾百萬行程式碼）為例，說明現實中已可完成的任務在現行 benchmark 下卻被判定為「尚不可行」。

對亞太商業決策者而言，這一波發布有幾個值得關注的面向：其一，授權趨勢正在改善，Gemma 4 與 MiMo-V2.5-Pro 均採 Apache 2.0，企業部署的合規成本降低；其二，中國實驗室（DeepSeek、Moonshot、Xiaomi、GLM）幾乎在同一時間窗口推出更新，顯示亞洲開源生態的迭代節奏已與全球同步甚至部分領先；其三，CAISI 的評估結論在方法論上存在可辯空間，決策者在引用「開源落後閉源」的敘事時，應留意評測設定與實際使用場景之間的落差，避免高估或低估開源模型在特定業務場景下的實際能力。

原文出處

原文標題 Latest open artifacts (#21): Open model bonanza! Gemma 4, DeepSeek V4, Kimi K2.6, MiMo 2.5, GLM-5.1 & others. On CAISI's V4 assessment.

媒體來源 Interconnects

發布日期 2026-05-16

閱讀原文 ↗

開源模型密集發布：Gemma 4、DeepSeek V4、Kimi K2.6 等主力模型同期登場，CAISI 安全評估引發能力差距爭議

訂閱品富智圖 AI 新聞