OpenAIとNvidia、GoogleのSynthIDを利用してAIコンテンツに透かしを入れる
GoogleのSynthID透かしシステムは、OpenAI、Nvidia、ElevenLabs、Kakaoによって採用され、AIコンテンツ検出のための共有業界標準への移行を示しています。
記事インテリジェンス
要点
- SynthIDは透かしを直接ピクセルや音声波形に埋め込み、メタデータよりも除去が困難。
- OpenAI、Nvidia、ElevenLabs、Kakaoが画像・動画・音声生成ツールにSynthIDを採用。
- このシステムはオープンソースモデルや既存の透かしなしコンテンツをカバーできないが、主要な商用ジェネレーターに検出可能な信号を提供する。
重要な理由
このニュースが重要なのは、SynthIDは透かしを直接ピクセルや音声波形に埋め込み、メタデータよりも除去が困難ためです。
技術的影響
モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。
3年前、GoogleはSynthIDというAI生成コンテンツ用の透かしシステムを導入しました。誰も使用を義務付けられていませんでした。それは、業界の残りの部分がまだ完全に認めていなかった問題に対するGoogleの回答に過ぎませんでした。今、OpenAIがそれを使用しています。Nvidiaも同様です。ElevenLabsやKakaoもそうです。そしてGoogleは、SynthIDがすでに1000億の画像と動画、さらに6万年分の音声に適用されていると述べています。タイミングが重要です。AI生成の画像や動画は、昔のような手がかり(余分な指、ぼやけたテキスト、間違った影)がほとんどなくなったほどに良くなっています。それに代わる検出方法は、人間の判断ではなく、コンテンツが生成される時点で、誰かのフィードに届く前に埋め込まれる透かしです。SynthIDは、それを大規模に機能させるというGoogleの賭けであり、業界の主要企業の数が増えつつある今、それに加わっています。
なぜSynthIDは除去が難しいのか?現在のほとんどのAIコンテンツラベリングはメタデータに依存しています。ファイルは作成時にタグ付けされ、どのように作られたか、どのツールが使われたか、生成要素が含まれているかが記述されます。GoogleもC2PA標準を通じてこのアプローチを使用しており、Pixel 10スマートフォンは撮影時にその情報を写真や動画に直接埋め込みます。メタデータの問題は、それが削除可能であることです。タグ付けされた画像をスクリーンショットすると、メタデータは付いてきません。圧縮ツールにかけたり、トリミングしたり、ファイル情報を剥がす場所に再投稿すると、ラベルは消えます。SynthIDは異なる動作をします。透かしは画像や動画のピクセル、または音声ファイルの波形の中に存在します。ファイルに付属するのではなく、コンテンツ自体に織り込まれています。Google DeepMindの科学者Pushmeet Kohli氏によると、このシステムは人々が実際に使用する種類の変換(圧縮、トリミング、回転、フォーマット変換)に耐えられるように特別に設計されました。その堅牢性こそが、これを基盤に構築する価値を生み出しています。スクリーンショットしたときに消える透かしは透かしではなく、単なる提案です。SynthIDは、コンテンツがインターネット上で実際に移動する方法を通じて持続するように設計されているため、ファイルが何度も手を経た後でも検出側がそれを見つけることができます。一部の研究者はSynthIDパターンを除去する方法を見つけたと主張していますが、Googleの立場は、これらのバイパスは実際には大規模には機能しないというものです。採用が拡大し、それを解読するインセンティブが高まるにつれて、これは注目に値する主張です。
OpenAIとNvidiaの参加で何が変わるか?これまでのSynthIDの限界は単純でした。それはGoogle自身のモデルが生成したコンテンツだけにラベルを付けるということです。Midjourneyのすべての画像、Soraのすべての動画、数十のスタートアップからの音声クローンにはSynthID透かしがまったくありませんでした。SynthIDパターンで訓練された検出ツールは、実際に流通しているもののごく一部にしか役立ちませんでした。OpenAIがGPT-2画像生成にSynthIDを追加し、NvidiaがCosmosワールド基礎モデルにそれを追加することで、状況は変わります。GPT-2画像はすでに広く使用されており、CosmosはNvidiaの動画およびシミュレーションコンテンツ生成の基盤です。ElevenLabsは最も広く使用されているAI音声プラットフォームの1つであり、Kakaoはアジア市場で大きなリーチを持っています。これらはギャップを完全に埋めるわけではありません。オープンソースモデルは、誰でも透かしを必要とせずに自分の条件でコンテンツを生成できるように存在しています。そのカテゴリーはなくなりません。しかし、主要な商用ジェネレーターがすべて同じシステムで出力をスタンプするようになると、計算は変わります。主流のツールから人々が遭遇するコンテンツは、検出可能な信号を持ち始めます。そうでないコンテンツは、その不在によってより目立つようになります。また、これらの企業が競合するシステムを構築するのではなく、同じ標準を採用していることも重要です。OpenAIが1つのシステム、Googleが別のシステム、Nvidiaが3つ目のシステムを持つ、断片化された透かしの状況は、大規模な検出にはほとんど役に立ちません。SynthIDへの収束、たとえ部分的な収束であっても、検出インフラを構築する価値を生み出します。
SynthIDが制御できないものは何か?このソリューションは、すべてのAI生成コンテンツに対して永続的ではありません。オープンソースの画像や動画モデルはこれに含まれません。ローカルモデルを実行したり、自分の重みを微調整したり、公開されているチェックポイントに基づいて構築したりする人は誰もSynthIDを適用する義務がなく、それを行うインフラもありません。そのカテゴリーのコンテンツ生成は成長しており、商業的な透かしパートナーシップが到達できる範囲外にあります。また、このロールアウトより前のコンテンツに対するスクリーンショット問題もあります。SynthIDなしで流通している3年間のAI画像は、遡及的にラベル付けされることはありません。このシステムは、参加プラットフォームを通じて今後生成されるものにのみマークを付けます。そして透かしは攻撃される可能性があります。Googleは、大規模に機能するバイパスはないと主張していますが、その主張は採用が増え、それを解読するインセンティブが高まるにつれて、より厳しくテストされます。主要な商用ジェネレーターのほとんどをカバーする透かしシステムは、Google自身のモデルだけをカバーするものよりも価値のあるターゲットになります。SynthIDが提供するのは、主流の商用ツールからのコンテンツに関する信号です。それは本当に有用です。しかし、それは解決された問題ではありません。
今後の展開は?GoogleはSynthID検出が実際に存在する場所を拡大しています。Circle to Search、Lens、AI Modeはすべて透かしをスキャンできるようになります。ChromeのGeminiは、何かがAI生成かどうかを尋ねると、タブのコンテンツを直接チェックできます。検出が人々がすでに使用しているツールに組み込まれると、チェックの複雑さは大幅に低下します。Googleはまた、Gemini Enterprise Agent Platformを通じて企業顧客にSynthIDの一部を開放しています。同社は、人々がシステムを研究してバイパスを試みるのを容易にするため、完全に公開された検出APIをまだリリースしていません。しかし、企業は現在、公式の検証ツールを使用して、テキスト、音声、動画にSynthID透かしが含まれているかどうかを確認できます。SynthIDは、十分な数の主要プレーヤーが独自に構築する価値がないと判断したため、AIコンテンツラベリングのための業界で最も共有された標準に近いものになりつつあります。これが、インフラ標準が通常どのようにして生まれるかです。