四大國產AI編程模型實測:DeepSeek-V3.1、Kimi K2、GLM-4.5、Qwen3各有勝負,Claude仍是複雜任務基準
DeepSeek-V3.1、Kimi K2、GLM-4.5、Qwen3編程能力實測對比,為企業選型國產AI提供實戰參考。
8月21日,DeepSeek發布V3.1版本,核心更新為三點:引入混合推理模式(同時支援思考與非思考模式)、工具調用與編程能力提升、上下文視窗擴展至128K。此時間點恰好與Kimi K2(7月11日)、Qwen3-Coder(7月22日)、GLM-4.5(7月28日)密集發布形成對照,作者以Claude Code接入四款模型官方API,進行前端UI開發與工程算法兩項實測。
前端任務以「液態玻璃風格瀏覽器主頁」為題。GLM-4.5表現最突出,能主動調用Playwright MCP下載背景圖,互動動效完整度領先其他模型;DeepSeek-V3.1首版效果平淡,補充提示詞後第二版明顯改善;Kimi K2一次成功但玻璃模糊感不足;Qwen3-Coder-Plus反覆出現工具調用失敗與文件寫入錯誤,單任務消耗近500萬Token。工程算法任務以「互動式路徑規劃算法可視化教學平台」為題,考驗任務分解與算法實現能力。DeepSeek-V3.1修改兩次後成功,消耗301萬Token、花費2.37元;Qwen3-Coder-Plus修改兩次後亦成功,消耗約126萬Token;GLM-4.5算法邏輯正確但始終無法完成動態可視化路徑展示;Kimi K2反覆報錯、修改三次後功能仍不可用,花費13.5元後放棄。
作者整理出四個維度的排序結論:整體工程能力為DeepSeek-V3.1 ≈ GLM-4.5 ≥ Qwen3-Coder-Plus > Kimi K2;前端能力為GLM-4.5 ≥ Kimi K2 ≈ Qwen3-Coder-Plus ≈ DeepSeek-V3.1;生成速度Kimi K2最快(需充值50元解除限速);費用由高至低為Kimi K2 > Qwen3-Coder-Plus(阿里百炼)> GLM-4.5 ≈ DeepSeek-V3.1,Qwen3-Coder另有魔搭社區每日500次免費調用。
這份實測對企業選型的意義有幾層值得注意。第一,國產模型之間的能力差距比宣傳排行榜更接近伯仲之間,沒有單一模型能在所有維度壓倒其他,實際工程任務的成敗往往取決於工具調用穩定性,而非benchmark分數。第二,Kimi K2的定位問題浮現:生成速度最快,但工程任務成功率最低、費用最高,若企業以API大量調用為場景,這一組合的CP值明顯偏弱。第三,DeepSeek-V3.1的性價比仍是國產模型中最具說服力的——在工程能力與GLM-4.5相當的前提下,費用與GLM-4.5接近且明顯低於Kimi K2,FP8精度的採用也代表其在推理成本控制上有結構性優勢。第四,作者明確指出,Claude在複雜任務上仍是國產模型無法替代的基準,建議策略是「簡單任務用國產模型、複雜任務用Claude」,而Claude將於8月28日起施加使用限制,這對重度依賴Claude的開發團隊構成壓力,也是國產模型的結構性機會窗口。對亞太企業決策者而言,現階段導入國產AI編程模型的合理策略是多模型並用、依任務類型路由,而非押注單一供應商。
訂閱品富智圖 AI 新聞
每日 AI 產業要聞彙整,一封信直送信箱。
