Google 發布 Gemini 3.5 Live Translate,支援逾 70 語言的近即時語音翻譯並向開發者開放 API

2026-06-10 · 來源:Google DeepMind Blog
重點摘要

Gemini 3.5 Live Translate實現近即時自然語音翻譯,語言AI應用迎來關鍵能力跨越

Google DeepMind 正式推出 Gemini 3.5 Live Translate,這是一款以串流方式處理語音的語音對語音翻譯模型,能在說話者持續講話的同時同步生成譯文,落差僅數秒,並保留原說話者的語調、節奏與音高。這不是在等一句話說完才翻,而是邊聽邊譯——這個設計上的差異,直接決定了在真實場景中能否實用。

模型支援逾 70 種語言,自動偵測輸入語言,無需手動設定。在 Google Meet 企業端,語言組合從原本僅支援「雙向英語」擴展至逾 2,000 種語言配對,語言數量也從 5 種跳升至 70 種以上——這是一次結構性的擴張,而非漸進式升級。發布策略分三路並行:開發者可透過 Gemini Live API 與 Google AI Studio 申請公開預覽;Google Workspace 企業用戶將於本月以私下預覽形式優先獲得 Meet 整合;一般用戶則可直接透過 Android 與 iOS 版 Google Translate 使用。

生態系部署同步啟動。Agora、LiveKit、Pipecat 等開發者平台已完成與 Gemini Live API 的整合,處理底層即時媒體串流基礎設施,讓開發者能專注於應用層體驗。Grab 是目前公開的最具代表性合作夥伴:這家東南亞叫車平台正在測試該模型,用於司機與乘客接送過程中的多語言近即時溝通,其平台每月有逾 1,000 萬通語音通話。這個案例的重量在於規模與場景——不是受控的會議室,而是嘈雜、不可預測的路邊現場,也正是模型強調「噪音穩健性」的原因所在。

所有生成音訊均嵌入 SynthID 水印,這是 Google DeepMind 的 AI 內容溯源技術,水印不可察覺但可機器偵測,用以防範 AI 語音被誤用為真實音訊。

對亞太市場決策者而言,這項發布有幾個值得直接評估的維度。第一,Google 將語言模型能力直接折射到企業協作工具與消費端 App,代表 AI 語音翻譯的競爭場地從技術研究快速移向產品整合與生態系綁定。第二,Grab 作為合作夥伴出現,說明東南亞多語言場景是 Google 刻意瞄準的市場,而東南亞正是語言碎片化最高、翻譯需求最現實的地區之一。第三,對於正在評估語音 AI 建設路徑的企業,Gemini Live API 的開放意味著一條相對低摩擦的接入路徑,但依賴 Google 基礎設施也意味著在定價、資料主權與 API 條款上的長期議價能力將受限制。

語音翻譯作為一個功能,市場上從不缺玩家;但能在 70 種語言、2,000 種語言配對上維持低延遲且保留語調,並同時部署到消費端、企業端與開發者端,這種覆蓋廣度目前幾乎只有 Google 能做到。真正的考驗是,當這個能力變成基礎設施,誰能在它上面建出不可取代的應用層。

原文出處
原文標題 Fluid, natural voice translation with Gemini 3.5 Live Translate
媒體來源 Google DeepMind Blog
發布日期 2026-06-09
閱讀原文 ↗

訂閱品富智圖 AI 新聞

每日 AI 產業要聞彙整,一封信直送信箱。