2026-05-23 19:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

谷歌全新的“任意到任意”AI模型令人驚歎

谷歌發佈Omni系列生成模型，可接受任意輸入（照片、視頻、文本）並生成任意輸出。作者通過深度偽造玩具鹿和自身視頻進行測試，發現視頻質量顯著提升，但仍存在AI跳幀和一致性不足的問題。Omni Flash已可在Flow平台使用，但生成視頻需消耗積分，成本較高。

來源The Verge AI作者: Allison Johnson

去年，作者將他孩子的毛絨鹿玩具進行深度偽造，讓它看起來像在度假。這是一次實驗，旨在復現谷歌Gemini廣告中的場景。雖然作者從未向自己四歲的孩子展示過這些視頻，但這次實驗讓他深刻思考了生成式AI的趣味與“垃圾內容”之間的界限。如今，隨着Gemini進入Omni時代，這一趨勢愈發明顯。

Omni是谷歌新推出的生成模型系列，號稱未來能將任意類型的輸入（照片、視頻、文本）轉化為任意輸出。目前，它主要專注於視頻生成。Omni Flash是首個發佈的模型，現已集成到谷歌的AI視頻生成和編輯平台Flow中。用户仍可使用前代Veo模型，但Omni在多個方面有所改進。

藉助Omni，用户可以上傳視頻，並配合文本提示作為AI創作的起點。谷歌聲稱，Omni在生成視頻時融入了更多現實世界知識，從而能更好地保持角色一致性。為了驗證這一説法，作者讓AI Buddy再次開啓AI生成的冒險之旅。

結果好壞參半，令人困惑。有些視頻質量非常高，相比五個月前測試Veo時，畫面更加一致且貼合提示。但即便是最佳片段，仍存在AI跳幀現象，比如Buddy在跳傘時突然改變方向。

在另一個視頻中，作者給予Omni更多藝術自由。提示要求Buddy收拾行李登上游輪，去熱帶度假，氛圍要可愛俏皮，並在行李箱裏放一件有趣的東西。Omni讓Buddy放了一罐蜂蜜，隨後在視頻中他像塗防曬霜一樣擠出蜂蜜。“哎呀”，角色説着把蜂蜜擠在蹄子上。這個橋段不錯，但蜂蜜瓶的形態不斷變化：從罐子變成透明擠壓瓶，再變回裝有蜂蜜的擠壓瓶。最終幀更是令人費解，彷彿模型只是隨機拋出了一堆元素。

用户可以使用文本提示對視頻進行編輯。作者承認，Omni在這方面的表現比Veo 3更好，但Veo的編輯功能本就糟糕，作者通常更傾向於直接從頭生成新視頻。Omni確實會採納編輯請求，但效果不一定理想。作者試圖突出Buddy的面部反應，結果反而顯得怪異；模型還會給Buddy加上他本來沒有的鹿角。當作者要求移除某場景中出現的鹿角時，模型照做了，但隨後在其他場景中又加上了鹿角。

這些功能並非免費。生成視頻需消耗積分，根據場景長度和輸入“成分”，每次消耗15到40積分不等。每次編輯消耗40積分。作者每月20美元的AI Pro計劃包含1000積分。在生成約20個視頻並進行少量編輯後，剩餘積分僅145。如果用户對視頻有特定要求，可能需要與模型多次交互，成本高昂。

Omni的另一大賣點是向真實視頻中添加AI生成內容。作者讓Buddy休息，轉而偽造自己。他從一段面部表情自然的自拍視頻開始，提示Omni生成自己吃意大利麪、坐在飛機座椅上、以及在埃菲爾鐵塔前咬法棍麪包的視頻。作者承認，他對結果毫無準備。

深度偽造視頻中存在AI痕跡：叉子碰碗的聲音略顯造作，飛機視頻背景中出現兩次同一女性。但除了這些小瑕疵和隱約的詭異感，它們逼真得令人信服。作者將吃麪片段展示給丈夫，丈夫知道作者在測試AI視頻工具，但不知哪些是AI生成。在沒有背景信息的情況下，他相信作者確實在鏡頭前吃麪，唯一的線索是碗看起來很陌生。吃麪的動作本身足以騙過與作者朝夕相處的丈夫。

其他深度偽造視頻的效果參差不齊，但足以在社交媒體上騙人。埃菲爾鐵塔片段中，個別畫面略顯卡通，但有一個版本足夠逼真，需要多看幾遍才能發現是AI。作者知道AI版自己轉頭時露出了馬尾辮，但不確定其他人能否分辨。這讓他感到不安。

作者坦言有些疲憊。測試Veo 3時，他對逼真程度感到震驚；過去幾年裏，他一次次震驚於製造虛假照片和視頻的易用性。現在面對Omni，他或許應該再次震驚，但新奇感已經消退。

AI視頻製作尚未達到谷歌宣稱的“電影級”水準，但Omni確實在某些方面超越了Veo。只要有谷歌賬號和信用卡，用户就能輕鬆將自己坐在家中的視頻變成飛往毛伊島的旅行片段。作者認為，雖然還未到“奇點山麓”，但毫無疑問已深陷“恐怖谷”。