中美頭部廠商春節前密集推出新一代模型,Agent 能力成核心競爭軸

2026-06-05 · 來源:thepaper.cn
重點摘要

千問、階躍、Kimi 密集發布 3.5 系列模型,中國 AI Agent 軍備競賽白熱化

2026年2月前後,千問(Qwen3-Max-Thinking)、階躍星辰(Step 3.5 Flash)、Kimi 2.5接連發布,阿里研究員同步透露Qwen 3.5即將推出。與此同時,智谱GLM-5、MiniMax M2.2、字節跳動Doubao 2.0矩陣預計春節前後陸續釋出,海外則有代號「Snow Bunny」的Gemini 3.5與代號「Fennec」的Claude 5流出基準數據。中美頭部玩家幾乎同步進入一輪大版本迭代,這是近兩年來少見的密度。

這一輪的競爭邏輯與過去不同。過去的模型升級大多是參數更大、速度更快、榜單排名更高,但2026年這輪更新,三條技術主線同時移動:推理能力從旗艦型號的「特規功能」下沉為基礎模型的預設行為;長上下文從「能塞多少字」轉向「能否穩定完成跨文件推理與長流程任務」;Agent能力從展示原型走向實際系統整合。階躍星辰的Step 3.5 Flash以196B總參數、激活11B的MoE架構,透過MTP-3三路多Token預測實現低延遲輸出,明確定位為「為Agent而生」的基礎模型。Claude 5流出的「蜂群模式」則強調多Agent協作與長任務一致性,關注的不是單次回答是否聰明,而是複雜工作流中角色與上下文的持續穩定。

為什麼集中在春節?原因是雙重的。去年DeepSeek在同一時間窗口意外引爆全球討論,確立了這個節點的傳播價值;同時,新一輪強化學習與推理訓練周期在2025年底成熟,多家廠商的下一代模型自然在年初進入集中釋出階段。結果是:從春節前兩週到3月初,行業很可能每隔數天就有一家頭部廠商推出重大更新,單一模型的注意力視窗將被壓縮至極短。

這對評測方式也有直接影響。大多數新模型發布時會同步開放API或產品入口,開發者與一般用戶幾乎可以即時上手。推理、Agent、長上下文等能力本身容易被直接體驗,社群的橫向對比——寫程式碼、多步驟任務、工具調用——很可能在數天內形成共識排序,速度遠快於過去依賴機構基準測試的周期。

對決策者而言,真正需要盯住的問題不是哪家模型在基準測試中領先,而是哪家能在發布後最快進入開發者工具鏈與企業工作流。過去一年的經驗顯示,ChatGPT、Gemini、豆包之間真正的差距來自入口占據速度,而非模型能力本身。能力的差距可能只存在數週,但調用習慣與整合深度一旦形成,就很難被後來者快速逆轉。

如果這一輪更新確實同時涉及訓練方式、推理架構與模型定位的切換,那麼對開發者來說應用結構可能需要重寫,對廠商來說模型有機會從功能組件升級為系統底座。春節這場大戰的真實勝負,將在3月之後的落地速度裡見分曉。

原文出處
原文標題 一切为了Agent:千问、阶跃、Gemini打响“3.5模型大战” - 澎湃新闻
媒體來源 thepaper.cn
發布日期 2026-06-05
閱讀原文 ↗

訂閱品富智圖 AI 新聞

每日 AI 產業要聞彙整,一封信直送信箱。