AI News HubLIVE
站内改写2 分鐘閱讀

Gemini Omni:在Gemini內進行AI視頻生成

Gemini Omni將視頻生成直接集成到Gemini多模態AI助手中,支持從文本或圖像創建視頻、動畫靜態圖像以及編輯現有視頻。文章通過實際測試展示了其能力,同時指出使用限制、版權問題和區域限制等不足。

來源Analytics Vidhya作者: Vasu Deo Sankrityayan

Gemini 模型一直在緊跟人工智能的發展步伐。從2023年基於文本的聊天機器人開始,Gemini 已經演變為一個能夠理解和生成文本、音頻、圖像……以及現在的視頻的多模態系統。AI 視頻生成不再是一個獨立工具。藉助 Gemini Omni,視頻創作變得主流。Gemini Omni 的重要性不在於它能生成視頻,而在於視頻生成正成為 AI 助手的一項普通能力。如果使用得當,它的用例實際上可以非常有創意(如果你能忽略那些防護欄的話)。

一句話或一張圖像 → 視頻

沒錯,你沒看錯。至少,Gemini Omni 可以僅憑一張圖像或一行文本就創建出完整的視頻!這是因為 Gemini Omni 不把文本、圖像、音頻和視頻當作分離的任務。相反,它將這些理解為不同形式的信息。因此,像“無人機在日出時飛越雪山”這樣簡單的提示,就可以擴展成一個包含運動、場景轉換和電影細節的完整視頻序列。同樣,用户可以提供一個靜態圖像,要求 Gemini Omni 將其動畫化,從單一視覺輸入中生成自然的相機運動、物體運動和環境效果。

Gemini Omni 的用例

以下是 Gemini Omni 的三個主要用例:

1. 圖像到視頻生成

測試:上傳一張圖像並將其動畫化為視頻。 提示詞:“這是一個虛構的殺手角色的剪影(類似於《美國精神病人》的主角)。我希望你以傳達 stealthy(隱秘)和危險個性的方式將其動畫化,同時保持視頻風格與圖像一致。” 結果:除了背景音樂,視頻效果出眾。輸入圖像的風格在一定程度上得以保留(儘管我希望一切都是2D風格的)。注意:即使這個任務本應只使用圖像進行視頻生成,仍需提供輔助提示以提供一些上下文。

2. 文本到視頻生成

測試:僅使用文本提示生成一個電影場景。 提示詞(摘要):標題“雲彩畫家”,風格為異想天開的動畫短片,要求保持角色一致性等。詳細描述了一隻穿黃色雨衣的小白兔用畫筆在雲上作畫的故事。 結果:生成的視頻與提示詞高度一致,動畫連貫。注意:負面提示詞就是告訴模型“請不要這樣做”的內容,正向提示詞像油門,負面提示詞像護欄。

3. 視頻編輯

測試:以視頻為輸入,根據提示編輯。 提示詞:“將我的遊戲視頻轉成動漫風格,黑白分鏡等效果。” 結果:令人滿意。

最終評價

這三項測試覆蓋了大多數實際用例:從零開始創建視頻、為現有圖像添加動畫,以及使用參考圖像保持一致性。它們清晰地展示了 Gemini Omni 的優勢和當前侷限。

Gemini Omni 的不足之處

  • 使用限制:最多生成3-5個視頻就會耗盡配額。生成一個10秒視頻消耗約22%的配額。
  • 視頻時長限制在大約10秒。
  • 生成的視頻包含 SynthID 的 AI 水印。
  • 需要付費的 Google AI 訂閲計劃:Plus、Pro 或 Ultra。
  • 一次只能上傳一個視頻作為輸入/參考。
  • 部分功能有區域限制,尤其是頭像和視頻到視頻編輯。
  • 使用限制取決於用户套餐,由於視頻生成消耗更多算力,配額會很快用盡。
  • 某些頭像功能可能不適用於所有個人或人物圖像,具體取決於政策。
  • 最大的問題是版權政策和第三方防護欄。幾乎無法處理包含名人或來源於互聯網知名內容的作品。即使上傳全新內容,也可能遇到拒絕生成的情況。生成時間(大多不到一分鐘)和使用限制是次要問題。對我來説,不斷因各種原因被拒絕生成才是最令人煩惱的。

如何訪問 Gemini Omni

有兩種方式:

  • Gemini 訂閲:付費套餐(Google AI Plus、Pro、Ultra)。
  • 開發者訪問:通過 Google AI Studio 的 Gemini API 或企業部署的 Vertex AI。訪問限制因套餐和地區而異。Gemini 使用基於算力的限制,取決於視頻複雜度、大小等因素。

結論

Gemini Omni 明確了一件事:AI 視頻生成不再是一個獨立的新奇事物。在圖像轉視頻、文本轉視頻和視頻編輯方面,它展示了一個簡單的提示或參考如何以驚人的速度、風格和創意範圍轉化為可用的視覺序列。但體驗並非無摩擦:視頻時長短、使用配額限制、水印、區域限制和嚴格的內容防護欄仍然制約着它。目前,Gemini Omni 更像是對未來無縫視頻生成的一個強大預覽。