谷歌全新的“任意到任意”AI模型令人驚歎
谷歌釋出Omni系列生成模型,可接受任意輸入(照片、影片、文本)並生成任意輸出。作者透過深度偽造玩具鹿和自身影片進行測試,發現影片質量顯著提升,但仍存在AI跳幀和一致性不足的問題。Omni Flash已可在Flow平臺使用,但生成影片需消耗積分,成本較高。
文章情報
要點
- 谷歌Omni模型支援從任意輸入生成任意輸出,首批聚焦影片生成。
- 測試顯示Omni在保持角色一致性上優於前代Veo,但仍有AI瑕疵。
- 使用者可透過文本提示編輯影片,但編輯效果不穩定且成本高。
- 深度偽造影片逼真度提升,作者認為已能騙過熟悉的人。
為什麼重要
這條新聞值得關注,因為谷歌Omni模型支援從任意輸入生成任意輸出,首批聚焦影片生成。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
去年,作者將他孩子的毛絨鹿玩具進行深度偽造,讓它看起來像在度假。這是一次實驗,旨在復現谷歌Gemini廣告中的場景。雖然作者從未向自己四歲的孩子展示過這些影片,但這次實驗讓他深刻思考了生成式AI的趣味與“垃圾內容”之間的界限。如今,隨著Gemini進入Omni時代,這一趨勢愈發明顯。
Omni是谷歌新推出的生成模型系列,號稱未來能將任意型別的輸入(照片、影片、文本)轉化為任意輸出。目前,它主要專注於影片生成。Omni Flash是首個釋出的模型,現已整合到谷歌的AI影片生成和編輯平臺Flow中。使用者仍可使用前代Veo模型,但Omni在多個方面有所改進。
藉助Omni,使用者可以上傳影片,並配合文本提示作為AI創作的起點。谷歌聲稱,Omni在生成影片時融入了更多現實世界知識,從而能更好地保持角色一致性。為了驗證這一說法,作者讓AI Buddy再次開啟AI生成的冒險之旅。
結果好壞參半,令人困惑。有些影片質量非常高,相比五個月前測試Veo時,畫面更加一致且貼合提示。但即便是最佳片段,仍存在AI跳幀現象,比如Buddy在跳傘時突然改變方向。
在另一個影片中,作者給予Omni更多藝術自由。提示要求Buddy收拾行李登上游輪,去熱帶度假,氛圍要可愛俏皮,並在行李箱裡放一件有趣的東西。Omni讓Buddy放了一罐蜂蜜,隨後在影片中他像塗防曬霜一樣擠出蜂蜜。“哎呀”,角色說著把蜂蜜擠在蹄子上。這個橋段不錯,但蜂蜜瓶的形態不斷變化:從罐子變成透明擠壓瓶,再變回裝有蜂蜜的擠壓瓶。最終幀更是令人費解,彷彿模型只是隨機丟擲了一堆元素。
使用者可以使用文本提示對影片進行編輯。作者承認,Omni在這方面的表現比Veo 3更好,但Veo的編輯功能本就糟糕,作者通常更傾向於直接從頭生成新影片。Omni確實會採納編輯請求,但效果不一定理想。作者試圖突出Buddy的面部反應,結果反而顯得怪異;模型還會給Buddy加上他本來沒有的鹿角。當作者要求移除某場景中出現的鹿角時,模型照做了,但隨後在其他場景中又加上了鹿角。
這些功能並非免費。生成影片需消耗積分,根據場景長度和輸入“成分”,每次消耗15到40積分不等。每次編輯消耗40積分。作者每月20美元的AI Pro計劃包含1000積分。在生成約20個影片並進行少量編輯後,剩餘積分僅145。如果使用者對影片有特定要求,可能需要與模型多次互動,成本高昂。
Omni的另一大賣點是向真實影片中新增AI生成內容。作者讓Buddy休息,轉而偽造自己。他從一段面部表情自然的自拍影片開始,提示Omni生成自己吃義大利麵、坐在飛機座椅上、以及在埃菲爾鐵塔前咬法棍麵包的影片。作者承認,他對結果毫無準備。
深度偽造影片中存在AI痕跡:叉子碰碗的聲音略顯造作,飛機影片背景中出現兩次同一女性。但除了這些小瑕疵和隱約的詭異感,它們逼真得令人信服。作者將吃麵片段展示給丈夫,丈夫知道作者在測試AI影片工具,但不知哪些是AI生成。在沒有背景資訊的情況下,他相信作者確實在鏡頭前吃麵,唯一的線索是碗看起來很陌生。吃麵的動作本身足以騙過與作者朝夕相處的丈夫。
其他深度偽造影片的效果參差不齊,但足以在社交媒體上騙人。埃菲爾鐵塔片段中,個別畫面略顯示卡通,但有一個版本足夠逼真,需要多看幾遍才能發現是AI。作者知道AI版自己轉頭時露出了馬尾辮,但不確定其他人能否分辨。這讓他感到不安。
作者坦言有些疲憊。測試Veo 3時,他對逼真程度感到震驚;過去幾年裡,他一次次震驚於製造虛假照片和影片的易用性。現在面對Omni,他或許應該再次震驚,但新奇感已經消退。
AI影片製作尚未達到谷歌宣稱的“電影級”水準,但Omni確實在某些方面超越了Veo。只要有谷歌賬號和信用卡,使用者就能輕鬆將自己坐在家中的影片變成飛往毛伊島的旅行片段。作者認為,雖然還未到“奇點山麓”,但毫無疑問已深陷“恐怖谷”。