谷歌全新的“任意到任意”AI模型令人惊叹
谷歌发布Omni系列生成模型,可接受任意输入(照片、视频、文本)并生成任意输出。作者通过深度伪造玩具鹿和自身视频进行测试,发现视频质量显著提升,但仍存在AI跳帧和一致性不足的问题。Omni Flash已可在Flow平台使用,但生成视频需消耗积分,成本较高。
文章情报
要点
- 谷歌Omni模型支持从任意输入生成任意输出,首批聚焦视频生成。
- 测试显示Omni在保持角色一致性上优于前代Veo,但仍有AI瑕疵。
- 用户可通过文本提示编辑视频,但编辑效果不稳定且成本高。
- 深度伪造视频逼真度提升,作者认为已能骗过熟悉的人。
为什么重要
这条新闻值得关注,因为谷歌Omni模型支持从任意输入生成任意输出,首批聚焦视频生成。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
去年,作者将他孩子的毛绒鹿玩具进行深度伪造,让它看起来像在度假。这是一次实验,旨在复现谷歌Gemini广告中的场景。虽然作者从未向自己四岁的孩子展示过这些视频,但这次实验让他深刻思考了生成式AI的趣味与“垃圾内容”之间的界限。如今,随着Gemini进入Omni时代,这一趋势愈发明显。
Omni是谷歌新推出的生成模型系列,号称未来能将任意类型的输入(照片、视频、文本)转化为任意输出。目前,它主要专注于视频生成。Omni Flash是首个发布的模型,现已集成到谷歌的AI视频生成和编辑平台Flow中。用户仍可使用前代Veo模型,但Omni在多个方面有所改进。
借助Omni,用户可以上传视频,并配合文本提示作为AI创作的起点。谷歌声称,Omni在生成视频时融入了更多现实世界知识,从而能更好地保持角色一致性。为了验证这一说法,作者让AI Buddy再次开启AI生成的冒险之旅。
结果好坏参半,令人困惑。有些视频质量非常高,相比五个月前测试Veo时,画面更加一致且贴合提示。但即便是最佳片段,仍存在AI跳帧现象,比如Buddy在跳伞时突然改变方向。
在另一个视频中,作者给予Omni更多艺术自由。提示要求Buddy收拾行李登上游轮,去热带度假,氛围要可爱俏皮,并在行李箱里放一件有趣的东西。Omni让Buddy放了一罐蜂蜜,随后在视频中他像涂防晒霜一样挤出蜂蜜。“哎呀”,角色说着把蜂蜜挤在蹄子上。这个桥段不错,但蜂蜜瓶的形态不断变化:从罐子变成透明挤压瓶,再变回装有蜂蜜的挤压瓶。最终帧更是令人费解,仿佛模型只是随机抛出了一堆元素。
用户可以使用文本提示对视频进行编辑。作者承认,Omni在这方面的表现比Veo 3更好,但Veo的编辑功能本就糟糕,作者通常更倾向于直接从头生成新视频。Omni确实会采纳编辑请求,但效果不一定理想。作者试图突出Buddy的面部反应,结果反而显得怪异;模型还会给Buddy加上他本来没有的鹿角。当作者要求移除某场景中出现的鹿角时,模型照做了,但随后在其他场景中又加上了鹿角。
这些功能并非免费。生成视频需消耗积分,根据场景长度和输入“成分”,每次消耗15到40积分不等。每次编辑消耗40积分。作者每月20美元的AI Pro计划包含1000积分。在生成约20个视频并进行少量编辑后,剩余积分仅145。如果用户对视频有特定要求,可能需要与模型多次交互,成本高昂。
Omni的另一大卖点是向真实视频中添加AI生成内容。作者让Buddy休息,转而伪造自己。他从一段面部表情自然的自拍视频开始,提示Omni生成自己吃意大利面、坐在飞机座椅上、以及在埃菲尔铁塔前咬法棍面包的视频。作者承认,他对结果毫无准备。
深度伪造视频中存在AI痕迹:叉子碰碗的声音略显造作,飞机视频背景中出现两次同一女性。但除了这些小瑕疵和隐约的诡异感,它们逼真得令人信服。作者将吃面片段展示给丈夫,丈夫知道作者在测试AI视频工具,但不知哪些是AI生成。在没有背景信息的情况下,他相信作者确实在镜头前吃面,唯一的线索是碗看起来很陌生。吃面的动作本身足以骗过与作者朝夕相处的丈夫。
其他深度伪造视频的效果参差不齐,但足以在社交媒体上骗人。埃菲尔铁塔片段中,个别画面略显卡通,但有一个版本足够逼真,需要多看几遍才能发现是AI。作者知道AI版自己转头时露出了马尾辫,但不确定其他人能否分辨。这让他感到不安。
作者坦言有些疲惫。测试Veo 3时,他对逼真程度感到震惊;过去几年里,他一次次震惊于制造虚假照片和视频的易用性。现在面对Omni,他或许应该再次震惊,但新奇感已经消退。
AI视频制作尚未达到谷歌宣称的“电影级”水准,但Omni确实在某些方面超越了Veo。只要有谷歌账号和信用卡,用户就能轻松将自己坐在家中的视频变成飞往毛伊岛的旅行片段。作者认为,虽然还未到“奇点山麓”,但毫无疑问已深陷“恐怖谷”。