2026春節中國開源大模型選型指南：Kimi、Qwen、GLM、MiniMax各有勝場

2026-05-22 · 來源：ai-coding.wiselychen.com

重點摘要

Qwen3.5、GLM-5、MiniMax M2.5等中國開源模型集體爆發，成本與效能雙重突破。

2026年2月，中國AI廠商在農曆新年前後密集發布新一代開源大模型：月之暗面Kimi K2.5、阿里Qwen3.5、智譜GLM-5、MiniMax M2.5在短短一個月內相繼上線，標誌著中國開源模型從「追趕者」正式進入「分場景抗衡頂級閉源模型」的新階段。

四款模型各自形成明確的競爭優勢，並非全面交鋒。Kimi K2.5的核心差異化在於原生Agent Swarm架構——編排器可將任務拆解為DAG圖譜，最多調度100個專用子代理並行運作，單次任務支援最高1,500次工具調用。同樣50個子任務，傳統線性執行需50分鐘，Kimi約11分鐘完成；BrowseComp測試中，開啟Swarm模式後準確率從60.6%提升至78.4%。此外，Kimi K2.5整合4億參數MoonViT編碼器，VideoMMMU得分86.6%，略超GPT-5.2的85.9%，是四款模型中唯一具備原生視頻理解能力的選項。API輸入成本約$0.60/M tokens，為Claude的12%。

Qwen3.5的訴求是大規模部署的成本效益。397B參數搭配MoE架構，每次推理激活170B，透過FP8量化與吞吐量8倍提升，API輸入成本降至約$0.20/M tokens——同樣預算下可跑25倍Claude的工作量。同步發布的Qwen3.5-Coder-Next（233B參數，推理激活約30B）可在單張H100上本地部署，代碼審查數據不出企業內網，成本再比API便宜40%，針對有數據主權顧慮的企業場景是目前最直接的解法。

GLM-5走的是推理能力路線，744B總參數、每次激活400B，是四款中激活參數量最大的。智譜公布的Intelligence Index（7項標準化Benchmark加權平均）GLM-5達50.2，與Claude Opus 4.5的50.0、GPT-5.2的49.8實質持平。代碼生成能力在四款中最強，HumanEval 92.8%、LiveCodeBench 89.2%均居首位，API輸入成本約$0.30/M tokens。需留意的是，「修復既有代碼庫」的任務Claude SWE-Bench仍以80.9%領先，GLM-5更適合從零生成代碼的場景。

MiniMax M2.5以230B相對較小的參數量，在Tool Calling精準度上取得τ-Bench 77.2%的四款最高分。這項指標在OpenClaw、Dify、n8n等Agent框架中直接影響自動化流程的成功率，並非純學術分數。更小的參數量帶來最低延遲與最高吞吐量，API輸入成本約$0.15/M tokens，為Claude的三十三分之一，適合高並發批量處理場景。

從企業決策角度，這波集體爆發透露三個值得關注的結構性訊號。第一，MoE架構已成為中國頭部模型的標準選項，競爭維度從「總參數規模」轉向「激活效率與應用適配」，這意味著單純比參數量的評估框架已過時。第二，Qwen3.5與GLM-5均採MIT授權開源，企業可自行部署，同時擁有數據主權與永久成本確定性——月流量超過100M tokens後，本地部署成本將低於API，這條分界線對規模化應用的採購決策具有實質影響。第三，中國開源模型與頂級閉源模型的能力差距，在多數商業應用場景下已收窄至2%–5%的精準度落差，但成本差距維持在8至33倍之間；作者實測顯示，以80%成本節省換取約3%的精準度下降，在Agent批量處理場景中是正向交換。對亞太企業AI部署而言，這組模型已從備選方案演變為值得認真評估的主力配置。

原文出處

原文標題 2026 農曆新年，中國開源大模型集體爆發 — Kimi、Qwen、GLM、MiniMax 怎麼選？

媒體來源 ai-coding.wiselychen.com

發布日期 2026-05-22

閱讀原文 ↗

2026春節中國開源大模型選型指南：Kimi、Qwen、GLM、MiniMax各有勝場

訂閱品富智圖 AI 新聞