微博 VibeThinker-3B 宣稱數學推理超越千億參數模型，基準測試可信度再引爭議

2026-06-18 · 來源：VentureBeat AI

重點摘要

微博3B小模型在數學推理超越DeepSeek R2，重燃中國小型模型基準之爭，對AI效率研究路線具指標意義

微博旗下九人研究團隊於週日在 arXiv 發布技術報告，聲稱其 30 億參數小型語言模型 VibeThinker-3B 在 AIME 2026 數學競賽基準測試上得分 94.3，與 DeepSeek 6710 億參數的 V3.2 並駕齊驅，並超越 Google Gemini 3 Pro 的 91.7 分。若搭配團隊自研的「Claim-Level Reliability Assessment」測試時擴展技術，分數更可提升至 97.1，號稱超越公開紀錄中幾乎所有系統。

論文發布後數小時內在 Hugging Face 與 GitHub 上引發廣泛關注，但社群反應並不一面倒，大量研究者對基準測試的可靠性提出質疑。這場討論的核心問題並非模型本身，而是 AI 領域長期懸而未決的老問題：在競爭性的發布環境下，公開基準是否仍能作為客觀比較標準？對於關注小型高效模型路線的亞太業者而言，VibeThinker-3B 若宣稱屬實，意味著以極低推論成本達到頂尖數學推理能力的門檻正在快速下降，但其成果尚待社群獨立驗證。

原文出處

原文標題 Why Weibo’s tiny VibeThinker-3B has the AI world arguing over benchmarks again

媒體來源 VentureBeat AI

發布日期 2026-06-17

閱讀原文 ↗

微博 VibeThinker-3B 宣稱數學推理超越千億參數模型，基準測試可信度再引爭議

訂閱品富智圖 AI 新聞