Gemini Omni:在Gemini内进行AI视频生成
Gemini Omni将视频生成直接集成到Gemini多模态AI助手中,支持从文本或图像创建视频、动画静态图像以及编辑现有视频。文章通过实际测试展示了其能力,同时指出使用限制、版权问题和区域限制等不足。
Gemini 模型一直在紧跟人工智能的发展步伐。从2023年基于文本的聊天机器人开始,Gemini 已经演变为一个能够理解和生成文本、音频、图像……以及现在的视频的多模态系统。AI 视频生成不再是一个独立工具。借助 Gemini Omni,视频创作变得主流。Gemini Omni 的重要性不在于它能生成视频,而在于视频生成正成为 AI 助手的一项普通能力。如果使用得当,它的用例实际上可以非常有创意(如果你能忽略那些防护栏的话)。
一句话或一张图像 → 视频
没错,你没看错。至少,Gemini Omni 可以仅凭一张图像或一行文本就创建出完整的视频!这是因为 Gemini Omni 不把文本、图像、音频和视频当作分离的任务。相反,它将这些理解为不同形式的信息。因此,像“无人机在日出时飞越雪山”这样简单的提示,就可以扩展成一个包含运动、场景转换和电影细节的完整视频序列。同样,用户可以提供一个静态图像,要求 Gemini Omni 将其动画化,从单一视觉输入中生成自然的相机运动、物体运动和环境效果。
Gemini Omni 的用例
以下是 Gemini Omni 的三个主要用例:
1. 图像到视频生成
测试:上传一张图像并将其动画化为视频。 提示词:“这是一个虚构的杀手角色的剪影(类似于《美国精神病人》的主角)。我希望你以传达 stealthy(隐秘)和危险个性的方式将其动画化,同时保持视频风格与图像一致。” 结果:除了背景音乐,视频效果出众。输入图像的风格在一定程度上得以保留(尽管我希望一切都是2D风格的)。注意:即使这个任务本应只使用图像进行视频生成,仍需提供辅助提示以提供一些上下文。
2. 文本到视频生成
测试:仅使用文本提示生成一个电影场景。 提示词(摘要):标题“云彩画家”,风格为异想天开的动画短片,要求保持角色一致性等。详细描述了一只穿黄色雨衣的小白兔用画笔在云上作画的故事。 结果:生成的视频与提示词高度一致,动画连贯。注意:负面提示词就是告诉模型“请不要这样做”的内容,正向提示词像油门,负面提示词像护栏。
3. 视频编辑
测试:以视频为输入,根据提示编辑。 提示词:“将我的游戏视频转成动漫风格,黑白分镜等效果。” 结果:令人满意。
最终评价
这三项测试覆盖了大多数实际用例:从零开始创建视频、为现有图像添加动画,以及使用参考图像保持一致性。它们清晰地展示了 Gemini Omni 的优势和当前局限。
Gemini Omni 的不足之处
- 使用限制:最多生成3-5个视频就会耗尽配额。生成一个10秒视频消耗约22%的配额。
- 视频时长限制在大约10秒。
- 生成的视频包含 SynthID 的 AI 水印。
- 需要付费的 Google AI 订阅计划:Plus、Pro 或 Ultra。
- 一次只能上传一个视频作为输入/参考。
- 部分功能有区域限制,尤其是头像和视频到视频编辑。
- 使用限制取决于用户套餐,由于视频生成消耗更多算力,配额会很快用尽。
- 某些头像功能可能不适用于所有个人或人物图像,具体取决于政策。
- 最大的问题是版权政策和第三方防护栏。几乎无法处理包含名人或来源于互联网知名内容的作品。即使上传全新内容,也可能遇到拒绝生成的情况。生成时间(大多不到一分钟)和使用限制是次要问题。对我来说,不断因各种原因被拒绝生成才是最令人烦恼的。
如何访问 Gemini Omni
有两种方式:
- Gemini 订阅:付费套餐(Google AI Plus、Pro、Ultra)。
- 开发者访问:通过 Google AI Studio 的 Gemini API 或企业部署的 Vertex AI。访问限制因套餐和地区而异。Gemini 使用基于算力的限制,取决于视频复杂度、大小等因素。
结论
Gemini Omni 明确了一件事:AI 视频生成不再是一个独立的新奇事物。在图像转视频、文本转视频和视频编辑方面,它展示了一个简单的提示或参考如何以惊人的速度、风格和创意范围转化为可用的视觉序列。但体验并非无摩擦:视频时长短、使用配额限制、水印、区域限制和严格的内容防护栏仍然制约着它。目前,Gemini Omni 更像是对未来无缝视频生成的一个强大预览。