中美頂級模型春節前後密集更新,Agent能力成2026年競爭核心

2026-05-19 · 來源:36氪
重點摘要

中國千問、階躍與Gemini展開「3.5模型大戰」,以Agent為核心競爭,直接影響亞太企業的選型決策。

2026年2月前後,中美大模型市場進入罕見的密集更新窗口。阿里Qwen3-Max-Thinking、階躍星辰Step 3.5 Flash、Kimi 2.5接連發布,直接對標GPT-5.2-Thinking與Claude Opus 4.5等旗艦推理模型;與此同時,OpenAI與Anthropic也幾乎同步推出GPT-5.3-Codex與Claude Opus 4.6的小版本迭代。更大的爆發仍在後頭:阿里研究員公開暗示Qwen 3.5發布在即,字節跳動預計3月推出Doubao 2.0、Seedream 5.0及SeedDance 2.0的模型矩陣,智谱GLM-5與MiniMax M2.2亦傳出春節前後發布時程,代號「Snow Bunny」的Gemini 3.5與代號「Fennec」的Claude 5測試成績也已流出。DeepSeek V4是否重演去年春節引爆效應仍存疑,目前消息傾向繼續更新V3系列。這意味著從春節前兩週至3月初,行業將進入連續出牌模式,每隔數天便有頭部玩家更新,單一模型能吸引的關注窗口極為短暫。

本輪更新與過去兩年「更大更強更全」的線性升級有本質差異。三條主線最值得關注:其一,推理能力正從少數旗艦型號的差異化賣點,變成基礎模型的預設工作方式。Step 3.5 Flash在196B(激活11B)參數規模下,透過MTP-3三路多Token預測技術,同時實現強推理與秒級回應;其二,長上下文從「指標」升級為「系統能力」,DeepSeek的「Engram條件記憶」機制據稱在計算量較MoE減少18%的情況下,在32768個token的長上下文任務中反超同參數量MoE模型;其三,Agent從展示階段正式進入基礎模型設計核心,Step 3.5 Flash明確定位「為Agent而生」,Claude 5流出的「蜂群模式」強調多Agent協作與長任務的角色一致性。

這場密集更新對亞太商業決策者有三層不顯而易見的意涵。第一,評測週期幾近消失。由於多數模型發布同步開放API,開發者可即時上手,真實使用下的橫向對比將在數日內於社群擴散,模型優劣的市場共識形成速度遠快於以往——對正在選型的企業而言,等待「正式評測報告」的決策模式已不適用。第二,技術堆疊可能需要重寫。若主流模型普遍完成強化學習、推理架構與工具調用的切換,當前基於舊版調用邏輯構建的應用結構將面臨重構壓力,這對已部署AI工作流的企業是需提前評估的風險點。第三,入口占據的戰略意義高於模型能力本身。文章指出,能力差距可能只存在數週,但一旦進入辦公軟體、開發工具乃至作業系統,調用習慣的護城河將遠比模型分數持久。對亞太市場而言,這意味著中國廠商的本地化落地速度——能否更快嵌入企業ERP、協作平台與雲端基礎設施——將是決定本輪競爭勝負的關鍵變數,而非僅是benchmark排名。

原文出處
原文標題 一切为了Agent:千问、阶跃、Gemini打响“3.5模型大战”,春节将成关键节点?-36氪
媒體來源 36氪
發布日期 2026-05-19
閱讀原文 ↗

訂閱品富智圖 AI 新聞

每日 AI 產業要聞彙整,一封信直送信箱。