2026-05-23 19:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

谷歌全新的“任意到任意”AI模型令人惊叹

谷歌发布Omni系列生成模型，可接受任意输入（照片、视频、文本）并生成任意输出。作者通过深度伪造玩具鹿和自身视频进行测试，发现视频质量显著提升，但仍存在AI跳帧和一致性不足的问题。Omni Flash已可在Flow平台使用，但生成视频需消耗积分，成本较高。

来源The Verge AI作者: Allison Johnson

去年，作者将他孩子的毛绒鹿玩具进行深度伪造，让它看起来像在度假。这是一次实验，旨在复现谷歌Gemini广告中的场景。虽然作者从未向自己四岁的孩子展示过这些视频，但这次实验让他深刻思考了生成式AI的趣味与“垃圾内容”之间的界限。如今，随着Gemini进入Omni时代，这一趋势愈发明显。

Omni是谷歌新推出的生成模型系列，号称未来能将任意类型的输入（照片、视频、文本）转化为任意输出。目前，它主要专注于视频生成。Omni Flash是首个发布的模型，现已集成到谷歌的AI视频生成和编辑平台Flow中。用户仍可使用前代Veo模型，但Omni在多个方面有所改进。

借助Omni，用户可以上传视频，并配合文本提示作为AI创作的起点。谷歌声称，Omni在生成视频时融入了更多现实世界知识，从而能更好地保持角色一致性。为了验证这一说法，作者让AI Buddy再次开启AI生成的冒险之旅。

结果好坏参半，令人困惑。有些视频质量非常高，相比五个月前测试Veo时，画面更加一致且贴合提示。但即便是最佳片段，仍存在AI跳帧现象，比如Buddy在跳伞时突然改变方向。

在另一个视频中，作者给予Omni更多艺术自由。提示要求Buddy收拾行李登上游轮，去热带度假，氛围要可爱俏皮，并在行李箱里放一件有趣的东西。Omni让Buddy放了一罐蜂蜜，随后在视频中他像涂防晒霜一样挤出蜂蜜。“哎呀”，角色说着把蜂蜜挤在蹄子上。这个桥段不错，但蜂蜜瓶的形态不断变化：从罐子变成透明挤压瓶，再变回装有蜂蜜的挤压瓶。最终帧更是令人费解，仿佛模型只是随机抛出了一堆元素。

用户可以使用文本提示对视频进行编辑。作者承认，Omni在这方面的表现比Veo 3更好，但Veo的编辑功能本就糟糕，作者通常更倾向于直接从头生成新视频。Omni确实会采纳编辑请求，但效果不一定理想。作者试图突出Buddy的面部反应，结果反而显得怪异；模型还会给Buddy加上他本来没有的鹿角。当作者要求移除某场景中出现的鹿角时，模型照做了，但随后在其他场景中又加上了鹿角。

这些功能并非免费。生成视频需消耗积分，根据场景长度和输入“成分”，每次消耗15到40积分不等。每次编辑消耗40积分。作者每月20美元的AI Pro计划包含1000积分。在生成约20个视频并进行少量编辑后，剩余积分仅145。如果用户对视频有特定要求，可能需要与模型多次交互，成本高昂。

Omni的另一大卖点是向真实视频中添加AI生成内容。作者让Buddy休息，转而伪造自己。他从一段面部表情自然的自拍视频开始，提示Omni生成自己吃意大利面、坐在飞机座椅上、以及在埃菲尔铁塔前咬法棍面包的视频。作者承认，他对结果毫无准备。

深度伪造视频中存在AI痕迹：叉子碰碗的声音略显造作，飞机视频背景中出现两次同一女性。但除了这些小瑕疵和隐约的诡异感，它们逼真得令人信服。作者将吃面片段展示给丈夫，丈夫知道作者在测试AI视频工具，但不知哪些是AI生成。在没有背景信息的情况下，他相信作者确实在镜头前吃面，唯一的线索是碗看起来很陌生。吃面的动作本身足以骗过与作者朝夕相处的丈夫。

其他深度伪造视频的效果参差不齐，但足以在社交媒体上骗人。埃菲尔铁塔片段中，个别画面略显卡通，但有一个版本足够逼真，需要多看几遍才能发现是AI。作者知道AI版自己转头时露出了马尾辫，但不确定其他人能否分辨。这让他感到不安。

作者坦言有些疲惫。测试Veo 3时，他对逼真程度感到震惊；过去几年里，他一次次震惊于制造虚假照片和视频的易用性。现在面对Omni，他或许应该再次震惊，但新奇感已经消退。

AI视频制作尚未达到谷歌宣称的“电影级”水准，但Omni确实在某些方面超越了Veo。只要有谷歌账号和信用卡，用户就能轻松将自己坐在家中的视频变成飞往毛伊岛的旅行片段。作者认为，虽然还未到“奇点山麓”，但毫无疑问已深陷“恐怖谷”。