Gemini Omni:Gemini内でのAI動画生成
Gemini Omniは、テキストや画像からの動画作成、静止画のアニメーション化、既存動画の編集を可能にし、動画生成をGeminiマルチモーダルAIアシスタントの一部として統合します。記事では実際のテストを通じてその能力を示す一方、利用制限、動画長の上限、コンテンツポリシーの厳しさなどの課題も指摘しています。
Geminiモデルは常にAIの進歩に追従してきました。2023年のテキストベースのチャットボットから、Geminiはテキスト、音声、画像、そして現在は動画を理解し生成するマルチモーダルシステムへと進化しました。AI動画生成はもはや独立したツールではありません。Gemini Omniにより、動画作成は主流になります。Gemini Omniが重要なのは動画を生成できるからではなく、動画生成がAIアシスタントの単なる一機能になりつつあるからです。適切に使えば、そのユースケースは非常に創造的になり得ます(ガードレールを無視できればの話ですが)。
一文または一枚の画像から動画へ
そうです、お読みの通りです。最低限、Gemini Omniは一枚の画像または一行のテキストだけで完全な動画を作成できます!これは、Gemini Omniがテキスト、画像、音声、動画を別々のタスクとして扱わないからです。代わりに、それらを異なる形式の情報として理解します。その結果、「日の出時に雪をかぶった山々の上を飛ぶドローン」のようなシンプルなプロンプトが、動き、シーン遷移、映画的なディテールを備えた完全な動画シーケンスに拡張されます。同様に、ユーザーは静止画を提供し、Gemini Omniにそれをアニメーション化するよう依頼でき、単一の視覚入力から自然なカメラの動き、物体の動き、環境効果を生成できます。
Gemini Omniのユースケース
Gemini Omniの主な3つのユースケースは以下の通りです:
1. 画像から動画への生成
テスト:画像をアップロードし、動画にアニメーション化。 プロンプト:「これは架空の殺人者的キャラクター(『アメリカン・サイコ』の主人公のような)のシルエットです。ステルス性と危険な個性を伝えつつ、画像のスタイルを一貫させた動画にアニメーション化してください。」 結果:BGMを除けば、動画は素晴らしかった。入力画像のスタイルはある程度保持されていました(ただし、すべて2Dコード化してほしかったのですが)。注意:このタスクは画像のみを使うはずでしたが、補足プロンプトが必要でした。
2. テキストから動画への生成
テスト:テキストプロンプトのみで映画的なシーンを生成。 プロンプト(要約):タイトル「雲の画家」、スタイルは風変わりなアニメーション短編。キャラクターの一貫性を要求。黄色いレインコートを着た小さな白いウサギが雲に絵を描く物語。 結果:プロンプトに非常に合った動画。アニメーションは一貫していました。注意:ネガティブプロンプトはモデルに「これをしないで」と伝えるリストであり、メインプロンプトがアクセル、ネガティブプロンプトがガードレールの役割を果たします。
3. 動画編集
テスト:動画を入力として、プロンプトに従って編集。 プロンプト:「このゲームプレイ動画をアニメ風に変換して。白黒のパネルなど、すべての良いものを。」 結果:良好。
最終評価
これらの3つのテストは、実際のユースケースの大半をカバーしています:ゼロからの動画作成、既存画像のアニメーション化、参照画像を使った一貫性の維持。これらは、Gemini Omniが優れている点と、現在の限界が明らかになる点を明確に示しています。
Gemini Omniの欠点
- 使用制限:最大3~5本の動画生成で枠を使い果たす。この記事の10秒動画1本で約22%消費。
- 動画の長さは最大約10秒。
- 生成動画にはSynthIDによるAI透かしが含まれる。
- アクセスには有料のGoogle AIプラン(Plus、Pro、Ultra)が必要。
- 入力/参照としてアップロードできる動画は1本のみ。
- 一部機能は地域制限あり(特にアバターと動画間編集)。
- 利用枠はプランに依存し、動画生成は計算量が多いためすぐに消費される。
- 特定の肖像/アバター機能は、ポリシーと可用性によりすべての人物画像で機能するとは限らない。
- 最大の問題は著作権ポリシーとサードパーティのガードレール。有名人を含むコンテンツやインターネット上の有名ソースからのコンテンツはほぼ扱えない。全く新しいコンテンツをアップロードしても、拒否されることがある。生成時間(ほとんどの場合1分未満)と利用枠は二次的な問題。私にとって、さまざまな理由による生成拒否が最も煩わしい点でした。
Gemini Omniへのアクセス方法
2つの方法があります:
- Geminiサブスクリプション:有料プラン(Google AI Plus、Pro、Ultra)。
- 開発者アクセス:Google AI Studio経由のGemini API、またはエンタープライズ向けVertex AI。アクセス制限と可用性はプランと地域によって異なります。Geminiは計算量ベースの制限を使用し、動画の複雑さやサイズなどに依存します。
結論
Gemini Omniは一つのことを明確にしました:AI動画生成はもはや別個の目新しさではありません。画像から動画、テキストから動画、動画編集にわたり、シンプルなプロンプトや参照が驚くべき速度、スタイル、創造性の範囲で使用可能な視覚シーケンスに変わることを示しています。しかし、体験は摩擦がありません。短い時間、使用制限、透かし、地域制限、厳格なコンテンツガードレールが依然として妨げとなっています。現時点では、Gemini Omniは将来のシームレスな動画生成の強力な予告編のように感じられます。