Gemini Omni:在Gemini內進行AI影片生成
Gemini Omni將影片生成直接整合到Gemini多模態AI助手中,支援從文本或影像建立影片、動畫靜態影像以及編輯現有影片。文章透過實際測試展示了其能力,同時指出使用限制、版權問題和區域限制等不足。
Gemini 模型一直在緊跟人工智慧的發展步伐。從2023年基於文本的聊天機器人開始,Gemini 已經演變為一個能夠理解和生成文本、音訊、影像……以及現在的影片的多模態系統。AI 影片生成不再是一個獨立工具。藉助 Gemini Omni,影片創作變得主流。Gemini Omni 的重要性不在於它能生成影片,而在於影片生成正成為 AI 助手的一項普通能力。如果使用得當,它的用例實際上可以非常有創意(如果你能忽略那些防護欄的話)。
一句話或一張影像 → 影片
沒錯,你沒看錯。至少,Gemini Omni 可以僅憑一張影像或一行文本就建立出完整的影片!這是因為 Gemini Omni 不把文本、影像、音訊和影片當作分離的任務。相反,它將這些理解為不同形式的資訊。因此,像“無人機在日出時飛越雪山”這樣簡單的提示,就可以擴充套件成一個包含運動、場景轉換和電影細節的完整影片序列。同樣,使用者可以提供一個靜態影像,要求 Gemini Omni 將其動畫化,從單一視覺輸入中生成自然的相機運動、物體運動和環境效果。
Gemini Omni 的用例
以下是 Gemini Omni 的三個主要用例:
1. 影像到影片生成
測試:上傳一張影像並將其動畫化為影片。 提示詞:“這是一個虛構的殺手角色的剪影(類似於《美國精神病人》的主角)。我希望你以傳達 stealthy(隱秘)和危險個性的方式將其動畫化,同時保持影片風格與影像一致。” 結果:除了背景音樂,影片效果出眾。輸入影像的風格在一定程度上得以保留(儘管我希望一切都是2D風格的)。注意:即使這個任務本應只使用影像進行影片生成,仍需提供輔助提示以提供一些上下文。
2. 文本到影片生成
測試:僅使用文本提示生成一個電影場景。 提示詞(摘要):標題“雲彩畫家”,風格為異想天開的動畫短片,要求保持角色一致性等。詳細描述了一隻穿黃色雨衣的小白兔用畫筆在雲上作畫的故事。 結果:生成的影片與提示詞高度一致,動畫連貫。注意:負面提示詞就是告訴模型“請不要這樣做”的內容,正向提示詞像油門,負面提示詞像護欄。
3. 影片編輯
測試:以影片為輸入,根據提示編輯。 提示詞:“將我的遊戲影片轉成動漫風格,黑白分鏡等效果。” 結果:令人滿意。
最終評價
這三項測試覆蓋了大多數實際用例:從零開始建立影片、為現有影像新增動畫,以及使用參考影像保持一致性。它們清晰地展示了 Gemini Omni 的優勢和當前侷限。
Gemini Omni 的不足之處
- 使用限制:最多生成3-5個影片就會耗盡配額。生成一個10秒影片消耗約22%的配額。
- 影片時長限制在大約10秒。
- 生成的影片包含 SynthID 的 AI 水印。
- 需要付費的 Google AI 訂閱計劃:Plus、Pro 或 Ultra。
- 一次只能上傳一個影片作為輸入/參考。
- 部分功能有區域限制,尤其是頭像和影片到影片編輯。
- 使用限制取決於使用者套餐,由於影片生成消耗更多算力,配額會很快用盡。
- 某些頭像功能可能不適用於所有個人或人物影像,具體取決於政策。
- 最大的問題是版權政策和第三方防護欄。幾乎無法處理包含名人或來源於網際網路知名內容的作品。即使上傳全新內容,也可能遇到拒絕生成的情況。生成時間(大多不到一分鐘)和使用限制是次要問題。對我來說,不斷因各種原因被拒絕生成才是最令人煩惱的。
如何訪問 Gemini Omni
有兩種方式:
- Gemini 訂閱:付費套餐(Google AI Plus、Pro、Ultra)。
- 開發者訪問:透過 Google AI Studio 的 Gemini API 或企業部署的 Vertex AI。訪問限制因套餐和地區而異。Gemini 使用基於算力的限制,取決於影片複雜度、大小等因素。
結論
Gemini Omni 明確了一件事:AI 影片生成不再是一個獨立的新奇事物。在影像轉影片、文本轉影片和影片編輯方面,它展示了一個簡單的提示或參考如何以驚人的速度、風格和創意範圍轉化為可用的視覺序列。但體驗並非無摩擦:影片時長短、使用配額限制、水印、區域限制和嚴格的內容防護欄仍然制約著它。目前,Gemini Omni 更像是對未來無縫影片生成的一個強大預覽。