AI News HubLIVE
站内改写

谷歌全新的“任意到任意”AI模型令人驚歎

谷歌發佈Omni系列生成模型,可接受任意輸入(照片、視頻、文本)並生成任意輸出。作者通過深度偽造玩具鹿和自身視頻進行測試,發現視頻質量顯著提升,但仍存在AI跳幀和一致性不足的問題。Omni Flash已可在Flow平台使用,但生成視頻需消耗積分,成本較高。

文章情報

工程師入門

要點

  • 谷歌Omni模型支持從任意輸入生成任意輸出,首批聚焦視頻生成。
  • 測試顯示Omni在保持角色一致性上優於前代Veo,但仍有AI瑕疵。
  • 用户可通過文本提示編輯視頻,但編輯效果不穩定且成本高。
  • 深度偽造視頻逼真度提升,作者認為已能騙過熟悉的人。

為甚麼重要

這條新聞值得關注,因為谷歌Omni模型支持從任意輸入生成任意輸出,首批聚焦視頻生成。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

去年,作者將他孩子的毛絨鹿玩具進行深度偽造,讓它看起來像在度假。這是一次實驗,旨在復現谷歌Gemini廣告中的場景。雖然作者從未向自己四歲的孩子展示過這些視頻,但這次實驗讓他深刻思考了生成式AI的趣味與“垃圾內容”之間的界限。如今,隨着Gemini進入Omni時代,這一趨勢愈發明顯。

Omni是谷歌新推出的生成模型系列,號稱未來能將任意類型的輸入(照片、視頻、文本)轉化為任意輸出。目前,它主要專注於視頻生成。Omni Flash是首個發佈的模型,現已集成到谷歌的AI視頻生成和編輯平台Flow中。用户仍可使用前代Veo模型,但Omni在多個方面有所改進。

藉助Omni,用户可以上傳視頻,並配合文本提示作為AI創作的起點。谷歌聲稱,Omni在生成視頻時融入了更多現實世界知識,從而能更好地保持角色一致性。為了驗證這一説法,作者讓AI Buddy再次開啓AI生成的冒險之旅。

結果好壞參半,令人困惑。有些視頻質量非常高,相比五個月前測試Veo時,畫面更加一致且貼合提示。但即便是最佳片段,仍存在AI跳幀現象,比如Buddy在跳傘時突然改變方向。

在另一個視頻中,作者給予Omni更多藝術自由。提示要求Buddy收拾行李登上游輪,去熱帶度假,氛圍要可愛俏皮,並在行李箱裏放一件有趣的東西。Omni讓Buddy放了一罐蜂蜜,隨後在視頻中他像塗防曬霜一樣擠出蜂蜜。“哎呀”,角色説着把蜂蜜擠在蹄子上。這個橋段不錯,但蜂蜜瓶的形態不斷變化:從罐子變成透明擠壓瓶,再變回裝有蜂蜜的擠壓瓶。最終幀更是令人費解,彷彿模型只是隨機拋出了一堆元素。

用户可以使用文本提示對視頻進行編輯。作者承認,Omni在這方面的表現比Veo 3更好,但Veo的編輯功能本就糟糕,作者通常更傾向於直接從頭生成新視頻。Omni確實會採納編輯請求,但效果不一定理想。作者試圖突出Buddy的面部反應,結果反而顯得怪異;模型還會給Buddy加上他本來沒有的鹿角。當作者要求移除某場景中出現的鹿角時,模型照做了,但隨後在其他場景中又加上了鹿角。

這些功能並非免費。生成視頻需消耗積分,根據場景長度和輸入“成分”,每次消耗15到40積分不等。每次編輯消耗40積分。作者每月20美元的AI Pro計劃包含1000積分。在生成約20個視頻並進行少量編輯後,剩餘積分僅145。如果用户對視頻有特定要求,可能需要與模型多次交互,成本高昂。

Omni的另一大賣點是向真實視頻中添加AI生成內容。作者讓Buddy休息,轉而偽造自己。他從一段面部表情自然的自拍視頻開始,提示Omni生成自己吃意大利麪、坐在飛機座椅上、以及在埃菲爾鐵塔前咬法棍麪包的視頻。作者承認,他對結果毫無準備。

深度偽造視頻中存在AI痕跡:叉子碰碗的聲音略顯造作,飛機視頻背景中出現兩次同一女性。但除了這些小瑕疵和隱約的詭異感,它們逼真得令人信服。作者將吃麪片段展示給丈夫,丈夫知道作者在測試AI視頻工具,但不知哪些是AI生成。在沒有背景信息的情況下,他相信作者確實在鏡頭前吃麪,唯一的線索是碗看起來很陌生。吃麪的動作本身足以騙過與作者朝夕相處的丈夫。

其他深度偽造視頻的效果參差不齊,但足以在社交媒體上騙人。埃菲爾鐵塔片段中,個別畫面略顯卡通,但有一個版本足夠逼真,需要多看幾遍才能發現是AI。作者知道AI版自己轉頭時露出了馬尾辮,但不確定其他人能否分辨。這讓他感到不安。

作者坦言有些疲憊。測試Veo 3時,他對逼真程度感到震驚;過去幾年裏,他一次次震驚於製造虛假照片和視頻的易用性。現在面對Omni,他或許應該再次震驚,但新奇感已經消退。

AI視頻製作尚未達到谷歌宣稱的“電影級”水準,但Omni確實在某些方面超越了Veo。只要有谷歌賬號和信用卡,用户就能輕鬆將自己坐在家中的視頻變成飛往毛伊島的旅行片段。作者認為,雖然還未到“奇點山麓”,但毫無疑問已深陷“恐怖谷”。