Google Gemini Omni 影片生成模型實測:深偽技術門檻已低至一般消費者可用

2026-05-23 · 來源:The Verge AI
重點摘要

Google發布跨模態任意輸入輸出AI模型,可能改變多模態應用格局

Google 近期推出 Omni 系列生成式模型的首款產品 Omni Flash,整合於旗下 AI 影片生成與編輯平台 Flow,定位為「任意輸入轉任意輸出」的跨模態架構,目前以影片生成為主要功能。相較於前代 Veo 模型,Omni Flash 支援上傳真實影片作為生成起點,並主打更強的角色一致性與現實世界知識整合能力。

The Verge 記者進行的實測揭示了幾個關鍵事實。在成本結構上,每段影片生成耗費 15 至 40 點數,一次編輯修改耗費 40 點數;月費 20 美元的 AI Pro 方案附贈 1,000 點數,實測約 20 段影片加部分編輯後,剩餘點數降至 145。換言之,若創作者對影片有具體構想、需要多輪修改迭代,信用點數的消耗速度相當快,月費方案的實際可用量有其上限。

模型品質的評估則呈現明顯的兩面性。角色一致性確實優於五個月前測試的 Veo,文字提示的編輯功能也比 Veo 3 更實際可用。然而,生成物件在同一支影片內持續變形(如蜂蜜罐在不同畫格間切換形態),以及響應編輯指令後在其他場景產生新錯誤(移除場景中的鹿角後,其餘畫面反而全部出現鹿角),顯示模型對複雜場景的空間與時序一致性仍未穩定。

最值得注意的是深偽(deepfake)人臉影片的部分。記者以一段自拍影片為輸入,生成本人在吃義大利麵、坐飛機、站在艾菲爾鐵塔前的畫面。最終產出物說服了一位每天與本人相處超過十年的家人,其辨識出的唯一線索是餐碗「看起來不熟悉」,而非臉部或動作本身。這不是技術展示的設定情境,而是消費者等級的帳號加信用卡,以極低操作門檻所產出的結果。

這件事對產業與商業決策者的意義,不在於 Omni 是否已達到「奇點前哨」。Omni 在技術指標上仍有明顯瑕疵,尚非專業級製作工具。真正的訊號是:將真實人臉置入虛構場景的能力,已從需要技術背景的操作,滑入一般消費者的日常工具範疇,而且這個滑落是在幾乎無感的情況下發生的。

對亞太市場的平台業者、品牌主與監管機構而言,這意味著內容真實性核查(content provenance)的壓力時間表必須重新評估。過去預設深偽影片仍需一定製作成本作為自然門檻,這個假設在 Omni Flash 上線後已不再成立。Google 本身尚未在 Flow 平台公開說明對應的濫用防範機制,這是當前最需要追問的缺口。

原文出處
原文標題 Google’s new anything-to-anything AI model is wild
媒體來源 The Verge AI
發布日期 2026-05-23
閱讀原文 ↗

訂閱品富智圖 AI 新聞

每日 AI 產業要聞彙整,一封信直送信箱。