可生成无限长视频,谷歌最新视频生成模型 VideoPoet 究竟有多强

图片来源:由无界 AI生成

最近一波视频生成模型突然出现,在许多情况下展示了令人惊叹的如画质量,例如 Runway、Pika。 然而当前视频生成的瓶颈之一是产生连贯大运动的能力。 在许多情况下,即使是当前领先的大模型也会产生较小的运动,或者当产生较大的运动时,会表现出明显的伪影。

谷歌刚刚发布了零镜头视频生成大模型 VideoPoet。

它能够执行各种视频生成任务,包括文本到视频、图像到视频、视频风格化、 视频修复和修复,以及视频转音频。该工具被感叹是一个突破性文生视频工具。

目前市场上一些领先的视频生成模型都是基于扩散的,然而,VideoPoet 不是。

VideoPoet 的重要特点之一就是,它将许多视频生成功能无缝集成在单个大模型中,而不是依赖于专门针对每个任务的单独训练的组件。

  • 白皮书:https://storage.googleapis.com/videopoet/paper.pdf
  • 研究论文:https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html


VideoPoet 概述


VideoPoet 是一种简单的建模方法,可以将任何自回归语言模型或大型语言模型(LLM)转换为高质量的视频生成器。 它包含一些简单的组件:

  • 预训练的 MAGVIT V2 视频分词器和 SoundStream 音频分词器将可变长度的图像、视频和音频剪辑转换为统一词汇表中的离散代码序列。 这些代码与基于文本的语言模型兼容,有助于与文本等其他模式的集成。
  • 自回归语言模型跨视频、图像、音频和文本模态学习,以自回归预测序列中的下一个视频或音频token。
  • 大模型训练框架引入了多模态生成学习目标的混合,包括文本到视频、文本到图像、图像到视频、视频帧延续、视频修复和修复、视频风格化和视频到视频 -声音的。 此外,这些任务可以组合在一起以获得额外的零样本功能(例如文本到音频)。

这个简单的秘诀表明,语言模型可以合成和编辑具有高度时间一致性的视频。 VideoPoet 展示了最先进的视频生成功能,特别是在生成各种大型、有趣且高保真度的动作方面。 VideoPoet 模型支持生成方形或纵向视频,以针对短格式内容定制生成视频,并支持从视频输入生成音频。

下图说明了 VideoPoet 的功能。 输入图像可以被动画化以产生运动,并且(可以选择裁剪或遮罩)视频可以被编辑以进行修复或修复。 对于风格化,该模型接收代表深度和光流(代表运动)的视频,并在顶部绘制内容以产生文本引导的风格。

VideoPoet 概述,能够在各种以视频为中心的输入和输出上执行多任务处理。 该大模型可以选择将文本作为输入来指导文本到视频、图像到视频、视频到音频、风格化和绘画任务的生成。


VideoPoet 的特点


1. 能生成更长的视频,或者说任意时长的视频

目前市场上的视频生成模型一般仅能生成很短的视频,1秒、2 秒......默认情况下,VideoPoet 输出 2 秒的视频,但该模型还能够通过给定 1 秒视频剪辑的输入来预测 1 秒的视频输出来生成长视频。 这个过程可以无限地重复,以生成任意时长的视频。 尽管输入上下文很短,但该模型显示出先前作品中未见的强大的对象身份保留,如这些较长持续时间的剪辑所示。

VideoPoet 任务设计详细图,显示各种任务的训练和推理输入和输出。 使用 tokenizer 编码器和解码器将模态与标记进行转换。 每个模态都被边界 token 包围,任务token指示要执行的任务类型。

2. 可控视频编辑

VideoPoet 模型可以编辑主题以遵循不同的动作,例如舞蹈风格。 在下面的示例中,模型使用不同的提示处理相同的输入剪辑。

3. 交互式视频编辑

还可以进行交互式编辑,将输入视频延长较短的持续时间并从示例列表中进行选择。 通过从候选列表中选择最佳视频,可以从较大的生成视频中精细地控制所需运动的类型。

4.图像到视频生成

VideoPoet 可以获取任何输入图像并生成与给定文本提示匹配的视频。

5.零镜头风格化

VideoPoet 还能够根据文本提示对输入视频进行风格化,并展示风格上令人愉悦的提示遵守情况。

5. 应用视觉样式和效果

可以在文本到视频的生成中轻松组合样式和效果。 我们从一个基本提示开始,并向其附加一个样式。

6.零镜头可控相机运镜

VideoPoet 预训练的一个新兴特性是,通过在文本提示中指定摄像机镜头的类型,可以实现很大程度上高质量的摄像机运动定制。


VideoPoet 生成的示例


我们的模型生成的一些示例如下所示:

VideoPoet 根据各种文本提示生成的视频,参考来源:https://sites.research.google/videopoet/

对于文本到视频,视频输出的长度是可变的,并且可以根据文本内容应用一系列动作和样式。 为了确保负责任的做法,我们参考公共领域的艺术品和风格,例如梵高的“星夜”。

按照以下文本输入:

1. “浣熊在时代广场跳舞” A Raccoon dancing in Times Square

2. “一匹马在梵高的《星夜》中驰骋”A horse galloping through Van-Gogh’s ‘Starry Night’

3. “两只熊猫打牌”Two pandas playing cards

4. “一大团爆炸飞溅的彩虹油漆,出现一个苹果,8k” A large blob of exploding splashing rainbow paint, with an apple emerging, 8k

对于图像到视频,VideoPoet 可以获取输入图像并通过提示将其动画化。

带有文本提示来引导动作的图像到视频的示例。 每个视频都与其左侧的图像配对。

左:“一艘在波涛汹涌的大海、雷暴和闪电中航行的船,画布上的动画油画”。

中:“飞过有许多闪烁星星的星云”。

右:“大风天,一个拄着拐杖站在悬崖上的流浪者,俯视着下面旋转的海雾”。

对于视频风格化,我们在将一些额外的输入文本输入 VideoPoet 之前预测光流和深度信息。

在 VideoPoet 文本到视频生成的视频之上进行视频风格化的示例,其中使用文本提示、深度和光流作为调节。 每对中的左侧视频是输入视频,右侧是风格化输出。

左:“戴着墨镜的袋熊在阳光明媚的海滩上拿着沙滩球。”

中:“泰迪熊在清澈的冰冻湖面上滑冰。”

右:“一只金属狮子在熔炉的光芒下咆哮。”

VideoPoet 还能够生成音频。 在这里,我们首先从模型生成 2 秒的剪辑,然后尝试在没有任何文本指导的情况下预测音频。 这使得能够从单个模型生成视频和音频。

默认情况下,VideoPoet 模型会生成纵向视频,以根据短格式内容定制其输出。 为了展示其功能,我们制作了一部由 VideoPoet 生成的许多短片组成的短片。 对于剧本,我们要求巴德写一个关于一只旅行浣熊的短篇故事,并附有逐个场景的分解和附带的提示列表。 然后,我们为每个提示生成视频剪辑,并将所有生成的剪辑拼接在一起以生成下面的最终视频。

“一名宇航员开始在火星上跳舞。 然后五彩缤纷的烟花在背景中爆炸。”

“丛林中一座非常锋利的精灵石城的 FPV 镜头,有明亮的蓝色河流、瀑布和大而陡峭的垂直悬崖面。”

还可以交互地编辑由 VideoPoet 生成的现有视频剪辑。 如果我们提供输入视频,我们可以改变对象的运动来执行不同的动作。 对象操作可以集中在第一帧或中间帧,这允许高度的编辑控制。

例如,我们可以从输入视频中随机生成一些剪辑,并选择所需的下一个剪辑。

左侧的输入视频被用作条件,根据初始提示生成四个选择:“一个可爱的、生锈的、损坏的蒸汽朋克机器人的特写,上面覆盖着潮湿的苔藓和发芽的植被,周围环绕着高高的草丛”。 对于前三个输出,我们展示了无提示运动会发生什么。 对于下面列表中的最后一个视频,我们添加了提示“在背景中冒烟通电”来指导操作。

图像到视频控制

类似地,我们可以将运动应用于输入图像,以根据文本提示将其内容编辑为所需的状态。

使用不同的提示对绘画进行动画处理。 左:“一位女士转身看着镜头。” 右:“一个打哈欠的女人。” **

相机运动

我们还可以通过将所需的相机运动类型附加到文本提示来精确控制相机运动。 例如,我们通过模型生成了一张图像,提示为“雪山日出、清澈河流的冒险游戏概念艺术”。 下面的示例附加给定的文本后缀以应用所需的动作。

从左到右提示:“缩小”、“移动变焦”、“向左平移”、“弧线拍摄”、“云台拍摄”、“FPV 无人机拍摄”。

评价结果

我们使用各种基准来评估 VideoPoet 在文本到视频生成方面的表现,以将结果与其他方法进行比较。 为了确保中立的评估,我们在各种不同的提示下运行了所有模型,没有挑选示例,并要求人们对他们的偏好进行评分。 下图以绿色突出显示了 VideoPoet 被选为以下问题的首选选项的时间百分比。

文本保真度

用户对文本保真度的偏好评级,即在准确遵循提示方面首选视频的百分比。

运动趣味性

用户对动作兴趣度的偏好评级,即在产生有趣的动作方面首选视频的百分比。

基于上述情况,平均而言,人们选择 VideoPoet 中 24-35% 的示例作为比竞争模型更好的跟随提示,而竞争模型的这一比例为 8-11%。 评分者还更喜欢 VideoPoet 中 41-54% 的示例,因为它们的动作更有趣,而其他模型的这一比例为 11-21%。


结论


VideoPoet 展示了大模型在各种任务中具有高度竞争力的视频生成质量,特别是在视频中生成有趣且高质量的动作方面。 结果表明大模型在视频生成领域的巨大潜力。 对于未来的方向,谷歌希望这个框架能够支持“任意到任意”的生成,例如,扩展到文本到音频、音频到视频和视频字幕等。

参考资料:

https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

https://storage.googleapis.com/videopoet/paper.pdf

https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html