OpenAI 和 Nvidia 正在使用 Google 的 SynthID 为 AI 内容添加水印
Google 的 SynthID 水印系统正被 OpenAI、Nvidia、ElevenLabs 和 Kakao 采用,标志着 AI 内容检测向共享行业标准转变。
文章情报
要点
- SynthID 直接将水印嵌入像素和音频波形,使其比元数据更难移除。
- OpenAI、Nvidia、ElevenLabs 和 Kakao 现在将 SynthID 用于其图像、视频和语音生成工具。
- 该系统无法覆盖开源模型和已存在的无水印内容,但为主要商业生成器提供了可检测的信号。
为什么重要
这条新闻值得关注,因为SynthID 直接将水印嵌入像素和音频波形,使其比元数据更难移除。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
三年前,谷歌推出了一套名为 SynthID 的 AI 生成内容水印系统。当时没有公司被要求使用它,它只是谷歌对行业尚未完全承认的问题的回应。如今,OpenAI 正在使用它,Nvidia 也不例外,ElevenLabs 和 Kakao 也加入了这一行列。谷歌表示,SynthID 已应用于 1000 亿张图片和视频,以及相当于 6 万年的音频内容。这一时机至关重要,因为 AI 生成的图像和视频已经足够逼真,旧有的识别方法——比如多出的手指、模糊的文字或错误的阴影——大多已消失。取而代之的检测方法不是靠人眼判断,而是在内容生成时就嵌入水印,在它进入任何人的信息流之前。SynthID 是谷歌对此规模化运作的赌注,而越来越多的行业巨头正在加入这一阵营。
SynthID 为何更难移除?目前大多数 AI 内容标注依赖元数据。文件在创建时会被打上标签,描述其生成方式、所用工具等。谷歌也通过 C2PA 标准使用这种方法,其 Pixel 10 手机现在在拍摄时直接将此类信息嵌入照片和视频。但元数据的问题在于它可被移除。截取一张带标签的图片,元数据不会随之保留;通过压缩工具处理、裁剪或在剥离文件信息的地方重新发布,标签就会消失。SynthID 则不同。水印存在于图像或视频的像素中,或音频文件的波形中。它不是附着在文件上,而是编织在内容本身。据谷歌 DeepMind 科学家 Pushmeet Kohli 称,该系统专门设计用于承受人们实际使用的各种变换:压缩、裁剪、旋转、格式转换。这种鲁棒性使其值得围绕它构建。如果水印在截屏后消失,那它就不是水印,而只是一个建议。SynthID 的设计使其能够持续存在于内容在互联网上传播的方式中,因此即使文件经过多次转手,检测端仍能发现它。一些研究人员声称找到了去除 SynthID 模式的方法,但谷歌认为这些方法实际上无法规模化运作。随着采用率的提高和破解动机的增加,这一说法值得关注。
OpenAI 和 Nvidia 的加入意味着什么?此前 SynthID 的限制很简单:它只为谷歌自己的模型生成的内容打标。Midjourney 生成的每张图片、Sora 生成的每个视频、以及众多初创公司的语音克隆都没有 SynthID 水印。基于 SynthID 模式的检测工具只对实际流通内容的一小部分有用。但当 OpenAI 将 SynthID 添加到 GPT-2 图像生成中,Nvidia 将其添加到 Cosmos 世界基础模型时,情况发生了变化。GPT-2 图像已被广泛使用,而 Cosmos 是 Nvidia 的视频和模拟内容生成基础。ElevenLabs 是最广泛使用的 AI 语音平台之一,Kakao 在亚洲市场拥有巨大影响力。这并未完全消除差距。开源模型的存在正是为了让任何人都可以按自己的方式生成内容,无需水印。这一类别不会消失。但当主要的商业生成器都开始使用同一系统为其输出添加水印时,情况就不同了。人们从主流工具接触到的内容开始携带可检测的信号,而那些没有水印的内容则变得更加引人注目。此外,这些公司采用同一标准而非各自构建竞争系统也很重要。如果水印格局碎片化——OpenAI 用一个系统,谷歌用另一个,Nvidia 用第三个——那么规模化检测就几乎毫无用处。向 SynthID 的收敛,即使是部分收敛,才使检测基础设施值得建设。
SynthID 无法控制的是什么?这个解决方案并非永久适用于所有 AI 生成内容。开源图像和视频模型不在此列。任何运行本地模型、微调自己权重或基于公开可用检查点进行构建的人都没有义务应用 SynthID,也没有基础设施可以这样做。这一内容生成类别正在增长,并且超出了任何商业水印合作的范围。此外,对于该推出之前的现有内容也存在截屏问题。三年的 AI 图像已经在没有 SynthID 的情况下流通,无法追溯性地打标。系统只标记通过参与平台新生成的内容。而且水印可能受到攻击。谷歌坚称没有绕过方法能规模化运作,但随着采用率的提高和破解动机的增加,这一说法将面临更严峻的考验。一个覆盖大多数主要商业生成器的水印系统成为更有价值的目标。SynthID 提供的是来自主流商业工具内容的信号,这确实有用,但问题并未完全解决。
未来走向如何?谷歌正在扩展 SynthID 检测的实际应用场景。Circle to Search、Lens 和 AI Mode 都将能够扫描水印。Chrome 中的 Gemini 可以直接检查标签页内容,如果你询问某内容是否为 AI 生成。当检测集成到人们已经使用的工具中时,检测的复杂性显著降低。谷歌还通过其 Gemini Enterprise Agent 平台向企业客户开放部分 SynthID。该公司仍未发布完全公开的检测 API,因为那会使人们更容易研究系统并尝试绕过。但企业现在可以使用官方验证工具来检查文本、音频或视频是否包含 SynthID 水印。SynthID 正成为行业最接近共享标准的 AI 内容标注方案,因为足够多的主要参与者认为自建系统不值得。基础设施标准通常就是这样形成的。