中美頂級模型春節前後密集更新，Agent能力成2026年競爭核心

2026-05-19 · 來源：36氪

重點摘要

中國千問、階躍與Gemini展開「3.5模型大戰」，以Agent為核心競爭，直接影響亞太企業的選型決策。

2026年2月前後，中美大模型市場進入罕見的密集更新窗口。阿里Qwen3-Max-Thinking、階躍星辰Step 3.5 Flash、Kimi 2.5接連發布，直接對標GPT-5.2-Thinking與Claude Opus 4.5等旗艦推理模型；與此同時，OpenAI與Anthropic也幾乎同步推出GPT-5.3-Codex與Claude Opus 4.6的小版本迭代。更大的爆發仍在後頭：阿里研究員公開暗示Qwen 3.5發布在即，字節跳動預計3月推出Doubao 2.0、Seedream 5.0及SeedDance 2.0的模型矩陣，智谱GLM-5與MiniMax M2.2亦傳出春節前後發布時程，代號「Snow Bunny」的Gemini 3.5與代號「Fennec」的Claude 5測試成績也已流出。DeepSeek V4是否重演去年春節引爆效應仍存疑，目前消息傾向繼續更新V3系列。這意味著從春節前兩週至3月初，行業將進入連續出牌模式，每隔數天便有頭部玩家更新，單一模型能吸引的關注窗口極為短暫。

本輪更新與過去兩年「更大更強更全」的線性升級有本質差異。三條主線最值得關注：其一，推理能力正從少數旗艦型號的差異化賣點，變成基礎模型的預設工作方式。Step 3.5 Flash在196B（激活11B）參數規模下，透過MTP-3三路多Token預測技術，同時實現強推理與秒級回應；其二，長上下文從「指標」升級為「系統能力」，DeepSeek的「Engram條件記憶」機制據稱在計算量較MoE減少18%的情況下，在32768個token的長上下文任務中反超同參數量MoE模型；其三，Agent從展示階段正式進入基礎模型設計核心，Step 3.5 Flash明確定位「為Agent而生」，Claude 5流出的「蜂群模式」強調多Agent協作與長任務的角色一致性。

這場密集更新對亞太商業決策者有三層不顯而易見的意涵。第一，評測週期幾近消失。由於多數模型發布同步開放API，開發者可即時上手，真實使用下的橫向對比將在數日內於社群擴散，模型優劣的市場共識形成速度遠快於以往——對正在選型的企業而言，等待「正式評測報告」的決策模式已不適用。第二，技術堆疊可能需要重寫。若主流模型普遍完成強化學習、推理架構與工具調用的切換，當前基於舊版調用邏輯構建的應用結構將面臨重構壓力，這對已部署AI工作流的企業是需提前評估的風險點。第三，入口占據的戰略意義高於模型能力本身。文章指出，能力差距可能只存在數週，但一旦進入辦公軟體、開發工具乃至作業系統，調用習慣的護城河將遠比模型分數持久。對亞太市場而言，這意味著中國廠商的本地化落地速度——能否更快嵌入企業ERP、協作平台與雲端基礎設施——將是決定本輪競爭勝負的關鍵變數，而非僅是benchmark排名。

原文出處

原文標題一切为了Agent：千问、阶跃、Gemini打响“3.5模型大战”，春节将成关键节点？-36氪

媒體來源 36氪

發布日期 2026-05-19

閱讀原文 ↗

中美頂級模型春節前後密集更新，Agent能力成2026年競爭核心

訂閱品富智圖 AI 新聞