微博 VibeThinker-3B 宣稱數學推理超越千億參數模型,基準測試可信度再引爭議
重點摘要
微博3B小模型在數學推理超越DeepSeek R2,重燃中國小型模型基準之爭,對AI效率研究路線具指標意義
微博旗下九人研究團隊於週日在 arXiv 發布技術報告,聲稱其 30 億參數小型語言模型 VibeThinker-3B 在 AIME 2026 數學競賽基準測試上得分 94.3,與 DeepSeek 6710 億參數的 V3.2 並駕齊驅,並超越 Google Gemini 3 Pro 的 91.7 分。若搭配團隊自研的「Claim-Level Reliability Assessment」測試時擴展技術,分數更可提升至 97.1,號稱超越公開紀錄中幾乎所有系統。
論文發布後數小時內在 Hugging Face 與 GitHub 上引發廣泛關注,但社群反應並不一面倒,大量研究者對基準測試的可靠性提出質疑。這場討論的核心問題並非模型本身,而是 AI 領域長期懸而未決的老問題:在競爭性的發布環境下,公開基準是否仍能作為客觀比較標準?對於關注小型高效模型路線的亞太業者而言,VibeThinker-3B 若宣稱屬實,意味著以極低推論成本達到頂尖數學推理能力的門檻正在快速下降,但其成果尚待社群獨立驗證。
原文出處
原文標題
Why Weibo’s tiny VibeThinker-3B has the AI world arguing over benchmarks again
媒體來源
VentureBeat AI
發布日期
2026-06-17
閱讀原文 ↗
訂閱品富智圖 AI 新聞
每日 AI 產業要聞彙整,一封信直送信箱。
