AI News HubLIVE
站内改写

Googleの新AIモデル「Omni」は驚異的、あらゆる入力をあらゆる出力に変換

Googleは、任意の入力(写真、動画、テキスト)から任意の出力を生成できる生成モデル「Omni」ファミリーを発表。筆者はぬいぐるみの鹿と自身のディープフェイク動画を作成してテストし、前世代のVeoより品質と一貫性が向上したことを確認したが、AI特有の不具合やクレジット消費の高さも指摘。ディープフェイク動画のリアリティは身近な人をも騙せるレベルに達しており、悪用の懸念が高まっている。

記事インテリジェンス

エンジニア中級

要点

  • GoogleのOmniモデルは、あらゆる入力から出力を生成可能で、まずは動画生成に焦点。
  • Omni FlashはVeoよりキャラクターの一貫性が改善されたが、依然としてアーティファクトが存在。
  • 動画生成・編集にはクレジットが必要(1クリップ15~40クレジット)、月20ドルプランで1,000クレジット。
  • 筆者のディープフェイク動画は配偶者を欺くほどリアルで、倫理的懸念を提起。

重要な理由

このニュースが重要なのは、GoogleのOmniモデルは、あらゆる入力から出力を生成可能で、まずは動画生成に焦点ためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

昨年、筆者は子供のぬいぐるみの鹿をディープフェイクして、まるで休暇中のように見せかけた。これはGoogleが公開していたGeminiの広告を再現する実験であり、4歳の子供には決して見せなかった。しかし、この実験は生成AIの無害な楽しさと完全な「スロップ」の違いについて深く考えさせるものだった。そして今、GeminiはOmni時代に突入し、その傾向はさらに加速している。

Omniは、写真、動画、テキストといったあらゆる種類の入力を、いつかはあらゆる出力に変換できるとされる新しい生成モデル群だ。まずは動画生成からスタートし、最初のモデル「Omni Flash」がGoogleのAI動画生成・編集プラットフォーム「Flow」で利用可能になった。前世代のVeoも引き続き使えるが、Omniはいくつかの点で改善されている。

Omniでは、動画をアップロードし、テキストプロンプトと組み合わせてAI生成の起点とできる。Googleは、Omniが動画生成時に現実世界の知識をより多く取り込み、キャラクターの一貫性を保つと主張する。筆者はこれを検証するため、AI Buddyを再び冒険に送り出した。

結果は非常にまちまちで、困惑させられるものだった。5カ月前にVeoをテストした時よりもはるかに一貫性があり、プロンプトに忠実な動画もあった。しかし、最良のクリップでさえ、Buddyがスカイダイビング中に突然方向転換するなど、AI特有の驚かされる瞬間が含まれていた。

別の動画では、Omniに芸術的自由を与えた。「Buddyが休暇の準備をし、熱帯クルーズに出発するモンタージュを作成して。雰囲気は可愛くて遊び心があり、Buddyはスーツケースに後で使う面白いものを詰める」。OmniはBuddyにハチミツの瓶を詰めさせ、後でそれを日焼け止めのように使うシーンを生成した。「おっと」とキャラクターが言いながら、ハチミツを蹄に絞り出す。悪くないアイデアだ。ただし、ハチミツの瓶は動画の中で瓶から透明なスクイズボトル、さらにハチミツ入りのスクイズボトルへと絶えず変化する。最終フレームに至っては、モデルが直前のシーンの要素を吐き出したかのようだ。

ユーザーはテキストプロンプトで動画の編集を提案できる。筆者は、OmniがVeo 3よりもうまく機能することを認める。しかし、Veoの編集機能は非常に悪く、毎回変更のたびに最初から新しい動画を生成する方が簡単だった。Omniは実際に編集を受け入れるが、結果は常に期待通りとは限らない。

筆者はBuddyの顔の反応を強調するよう指示したが、結果は奇妙に見えるだけだった。また、Buddyにはない角が時々表示された。あるシーンに現れた角を削除するよう指示すると、そのシーンでは削除されたが、他のすべてのシーンに角が追加された。

これらの機能は無料ではない。動画生成にはクレジットが消費され、シーンの長さと使用する「材料」に応じて15~40クレジット。1回の編集で40クレジット。月額20ドルのAI Proプランには1,000クレジットが含まれる。約20クリップを生成し、いくつか編集した後、残りは145クレジット。特定のビジョンを持つユーザーは、モデルとのコストのかかるやり取りを繰り返すことになる。

Omniの強みの一つは、実際の動画にAI生成要素を追加することだ。筆者はBuddyを休ませ、自分自身をディープフェイクした。無表情の自撮り動画から始め、スパゲッティを食べる自分、飛行機の座席に座る自分、エッフェル塔の前でバゲットをかじる自分を生成するよう指示した。そして、その結果に全く準備ができていなかったと正直に言える。

ディープフェイク動画にはAIの兆候がある。フォークがパスタの皿に当たる音は少々作為的で、飛行機の背景には同じ女性が二度現れる。しかし、これらの小さな不具合と何となく不気味な感覚を除けば、驚くほど説得力がある。

筆者は夫にパスタのクリップを見せた。夫はAI動画ツールをテストしていることは知っていたが、どの部分がAI生成かを教えなかった。夫はその情報なしに、筆者がカメラの前でパスタを食べていると信じ、唯一の手がかりは皿が見慣れないことだけだった。パスタを食べる動作自体は、この10年間ほぼ毎日筆者を実際に見ている夫を騙すのに十分だった。

他のディープフェイクは「ソーシャルメディアで人を騙せる」程度の出来だ。エッフェル塔のクリップのうち数本はやや漫画的だが、一本は十分にリアルで、何度か見直さないとAIと気づかない。AIの自分が頭を回してポニーテールを現した時、それは自分ではないと分かる。しかし、他の誰かにその違いが分かるかどうかは疑問で、それが筆者を奇妙な気持ちにさせる。

正直なところ、筆者は少し疲れている。Veo 3をテストした時、そのリアリズムに衝撃を受けた。過去数年間、偽の写真で偽の人を作るのがいかに簡単かに繰り返し衝撃を受けてきた。Omniにも衝撃を受けるべきだろうし、実際そうなのだが、その感覚は薄れてしまった。

Googleが信じさせようとしているほど、AI生成の映画的な傑作を作るのはまだ簡単ではない。しかし、Omniは確かにVeoをいくつかの点で改善している。Googleアカウントとクレジットカードがあれば、自宅に座っている自分の動画を、ほんのわずかな労力でマウイ行きの飛行機に乗っているように見せることができる。筆者は「特異点の麓」にいるとは思わないが、間違いなく不気味の谷の奥深くにいる。