2026-05-23 19:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

谷歌全新的“任意到任意”AI模型令人驚歎

谷歌釋出Omni系列生成模型，可接受任意輸入（照片、影片、文本）並生成任意輸出。作者透過深度偽造玩具鹿和自身影片進行測試，發現影片質量顯著提升，但仍存在AI跳幀和一致性不足的問題。Omni Flash已可在Flow平臺使用，但生成影片需消耗積分，成本較高。

來源The Verge AI作者: Allison Johnson

去年，作者將他孩子的毛絨鹿玩具進行深度偽造，讓它看起來像在度假。這是一次實驗，旨在復現谷歌Gemini廣告中的場景。雖然作者從未向自己四歲的孩子展示過這些影片，但這次實驗讓他深刻思考了生成式AI的趣味與“垃圾內容”之間的界限。如今，隨著Gemini進入Omni時代，這一趨勢愈發明顯。

Omni是谷歌新推出的生成模型系列，號稱未來能將任意型別的輸入（照片、影片、文本）轉化為任意輸出。目前，它主要專注於影片生成。Omni Flash是首個釋出的模型，現已整合到谷歌的AI影片生成和編輯平臺Flow中。使用者仍可使用前代Veo模型，但Omni在多個方面有所改進。

藉助Omni，使用者可以上傳影片，並配合文本提示作為AI創作的起點。谷歌聲稱，Omni在生成影片時融入了更多現實世界知識，從而能更好地保持角色一致性。為了驗證這一說法，作者讓AI Buddy再次開啟AI生成的冒險之旅。

結果好壞參半，令人困惑。有些影片質量非常高，相比五個月前測試Veo時，畫面更加一致且貼合提示。但即便是最佳片段，仍存在AI跳幀現象，比如Buddy在跳傘時突然改變方向。

在另一個影片中，作者給予Omni更多藝術自由。提示要求Buddy收拾行李登上游輪，去熱帶度假，氛圍要可愛俏皮，並在行李箱裡放一件有趣的東西。Omni讓Buddy放了一罐蜂蜜，隨後在影片中他像塗防曬霜一樣擠出蜂蜜。“哎呀”，角色說著把蜂蜜擠在蹄子上。這個橋段不錯，但蜂蜜瓶的形態不斷變化：從罐子變成透明擠壓瓶，再變回裝有蜂蜜的擠壓瓶。最終幀更是令人費解，彷彿模型只是隨機丟擲了一堆元素。

使用者可以使用文本提示對影片進行編輯。作者承認，Omni在這方面的表現比Veo 3更好，但Veo的編輯功能本就糟糕，作者通常更傾向於直接從頭生成新影片。Omni確實會採納編輯請求，但效果不一定理想。作者試圖突出Buddy的面部反應，結果反而顯得怪異；模型還會給Buddy加上他本來沒有的鹿角。當作者要求移除某場景中出現的鹿角時，模型照做了，但隨後在其他場景中又加上了鹿角。

這些功能並非免費。生成影片需消耗積分，根據場景長度和輸入“成分”，每次消耗15到40積分不等。每次編輯消耗40積分。作者每月20美元的AI Pro計劃包含1000積分。在生成約20個影片並進行少量編輯後，剩餘積分僅145。如果使用者對影片有特定要求，可能需要與模型多次互動，成本高昂。

Omni的另一大賣點是向真實影片中新增AI生成內容。作者讓Buddy休息，轉而偽造自己。他從一段面部表情自然的自拍影片開始，提示Omni生成自己吃義大利麵、坐在飛機座椅上、以及在埃菲爾鐵塔前咬法棍麵包的影片。作者承認，他對結果毫無準備。

深度偽造影片中存在AI痕跡：叉子碰碗的聲音略顯造作，飛機影片背景中出現兩次同一女性。但除了這些小瑕疵和隱約的詭異感，它們逼真得令人信服。作者將吃麵片段展示給丈夫，丈夫知道作者在測試AI影片工具，但不知哪些是AI生成。在沒有背景資訊的情況下，他相信作者確實在鏡頭前吃麵，唯一的線索是碗看起來很陌生。吃麵的動作本身足以騙過與作者朝夕相處的丈夫。

其他深度偽造影片的效果參差不齊，但足以在社交媒體上騙人。埃菲爾鐵塔片段中，個別畫面略顯示卡通，但有一個版本足夠逼真，需要多看幾遍才能發現是AI。作者知道AI版自己轉頭時露出了馬尾辮，但不確定其他人能否分辨。這讓他感到不安。

作者坦言有些疲憊。測試Veo 3時，他對逼真程度感到震驚；過去幾年裡，他一次次震驚於製造虛假照片和影片的易用性。現在面對Omni，他或許應該再次震驚，但新奇感已經消退。

AI影片製作尚未達到谷歌宣稱的“電影級”水準，但Omni確實在某些方面超越了Veo。只要有谷歌賬號和信用卡，使用者就能輕鬆將自己坐在家中的影片變成飛往毛伊島的旅行片段。作者認為，雖然還未到“奇點山麓”，但毫無疑問已深陷“恐怖谷”。