中美頭部廠商春節前密集推出新一代模型，Agent 能力成核心競爭軸

2026-06-05 · 來源：thepaper.cn

重點摘要

千問、階躍、Kimi 密集發布 3.5 系列模型，中國 AI Agent 軍備競賽白熱化

2026年2月前後，千問（Qwen3-Max-Thinking）、階躍星辰（Step 3.5 Flash）、Kimi 2.5接連發布，阿里研究員同步透露Qwen 3.5即將推出。與此同時，智谱GLM-5、MiniMax M2.2、字節跳動Doubao 2.0矩陣預計春節前後陸續釋出，海外則有代號「Snow Bunny」的Gemini 3.5與代號「Fennec」的Claude 5流出基準數據。中美頭部玩家幾乎同步進入一輪大版本迭代，這是近兩年來少見的密度。

這一輪的競爭邏輯與過去不同。過去的模型升級大多是參數更大、速度更快、榜單排名更高，但2026年這輪更新，三條技術主線同時移動：推理能力從旗艦型號的「特規功能」下沉為基礎模型的預設行為；長上下文從「能塞多少字」轉向「能否穩定完成跨文件推理與長流程任務」；Agent能力從展示原型走向實際系統整合。階躍星辰的Step 3.5 Flash以196B總參數、激活11B的MoE架構，透過MTP-3三路多Token預測實現低延遲輸出，明確定位為「為Agent而生」的基礎模型。Claude 5流出的「蜂群模式」則強調多Agent協作與長任務一致性，關注的不是單次回答是否聰明，而是複雜工作流中角色與上下文的持續穩定。

為什麼集中在春節？原因是雙重的。去年DeepSeek在同一時間窗口意外引爆全球討論，確立了這個節點的傳播價值；同時，新一輪強化學習與推理訓練周期在2025年底成熟，多家廠商的下一代模型自然在年初進入集中釋出階段。結果是：從春節前兩週到3月初，行業很可能每隔數天就有一家頭部廠商推出重大更新，單一模型的注意力視窗將被壓縮至極短。

這對評測方式也有直接影響。大多數新模型發布時會同步開放API或產品入口，開發者與一般用戶幾乎可以即時上手。推理、Agent、長上下文等能力本身容易被直接體驗，社群的橫向對比——寫程式碼、多步驟任務、工具調用——很可能在數天內形成共識排序，速度遠快於過去依賴機構基準測試的周期。

對決策者而言，真正需要盯住的問題不是哪家模型在基準測試中領先，而是哪家能在發布後最快進入開發者工具鏈與企業工作流。過去一年的經驗顯示，ChatGPT、Gemini、豆包之間真正的差距來自入口占據速度，而非模型能力本身。能力的差距可能只存在數週，但調用習慣與整合深度一旦形成，就很難被後來者快速逆轉。

如果這一輪更新確實同時涉及訓練方式、推理架構與模型定位的切換，那麼對開發者來說應用結構可能需要重寫，對廠商來說模型有機會從功能組件升級為系統底座。春節這場大戰的真實勝負，將在3月之後的落地速度裡見分曉。

原文出處

原文標題一切为了Agent：千问、阶跃、Gemini打响“3.5模型大战” - 澎湃新闻

媒體來源 thepaper.cn

發布日期 2026-06-05

閱讀原文 ↗

中美頭部廠商春節前密集推出新一代模型，Agent 能力成核心競爭軸

訂閱品富智圖 AI 新聞