Google 發布 Gemini 3.5 Live Translate，支援逾 70 語言的近即時語音翻譯並向開發者開放 API

2026-06-10 · 來源：Google DeepMind Blog

重點摘要

Gemini 3.5 Live Translate實現近即時自然語音翻譯，語言AI應用迎來關鍵能力跨越

Google DeepMind 正式推出 Gemini 3.5 Live Translate，這是一款以串流方式處理語音的語音對語音翻譯模型，能在說話者持續講話的同時同步生成譯文，落差僅數秒，並保留原說話者的語調、節奏與音高。這不是在等一句話說完才翻，而是邊聽邊譯——這個設計上的差異，直接決定了在真實場景中能否實用。

模型支援逾 70 種語言，自動偵測輸入語言，無需手動設定。在 Google Meet 企業端，語言組合從原本僅支援「雙向英語」擴展至逾 2,000 種語言配對，語言數量也從 5 種跳升至 70 種以上——這是一次結構性的擴張，而非漸進式升級。發布策略分三路並行：開發者可透過 Gemini Live API 與 Google AI Studio 申請公開預覽；Google Workspace 企業用戶將於本月以私下預覽形式優先獲得 Meet 整合；一般用戶則可直接透過 Android 與 iOS 版 Google Translate 使用。

生態系部署同步啟動。Agora、LiveKit、Pipecat 等開發者平台已完成與 Gemini Live API 的整合，處理底層即時媒體串流基礎設施，讓開發者能專注於應用層體驗。Grab 是目前公開的最具代表性合作夥伴：這家東南亞叫車平台正在測試該模型，用於司機與乘客接送過程中的多語言近即時溝通，其平台每月有逾 1,000 萬通語音通話。這個案例的重量在於規模與場景——不是受控的會議室，而是嘈雜、不可預測的路邊現場，也正是模型強調「噪音穩健性」的原因所在。

所有生成音訊均嵌入 SynthID 水印，這是 Google DeepMind 的 AI 內容溯源技術，水印不可察覺但可機器偵測，用以防範 AI 語音被誤用為真實音訊。

對亞太市場決策者而言，這項發布有幾個值得直接評估的維度。第一，Google 將語言模型能力直接折射到企業協作工具與消費端 App，代表 AI 語音翻譯的競爭場地從技術研究快速移向產品整合與生態系綁定。第二，Grab 作為合作夥伴出現，說明東南亞多語言場景是 Google 刻意瞄準的市場，而東南亞正是語言碎片化最高、翻譯需求最現實的地區之一。第三，對於正在評估語音 AI 建設路徑的企業，Gemini Live API 的開放意味著一條相對低摩擦的接入路徑，但依賴 Google 基礎設施也意味著在定價、資料主權與 API 條款上的長期議價能力將受限制。

語音翻譯作為一個功能，市場上從不缺玩家；但能在 70 種語言、2,000 種語言配對上維持低延遲且保留語調，並同時部署到消費端、企業端與開發者端，這種覆蓋廣度目前幾乎只有 Google 能做到。真正的考驗是，當這個能力變成基礎設施，誰能在它上面建出不可取代的應用層。

原文出處

原文標題 Fluid, natural voice translation with Gemini 3.5 Live Translate

媒體來源 Google DeepMind Blog

發布日期 2026-06-09

閱讀原文 ↗

Google 發布 Gemini 3.5 Live Translate，支援逾 70 語言的近即時語音翻譯並向開發者開放 API

訂閱品富智圖 AI 新聞