Stability AI 推出 Stable Video 4D 通过单个视频并生成八个新角度的动态新视角视频

Stability AI 宣布推出 Stable Video 4D（SV4D），这是一款创新模型，用户可以上传单个视频并生成八个新角度的动态新视角视频。

与以往需要从图像扩散模型、视频扩散模型和多视角扩散模型中取样的方法不同，SV4D 能够同时生成多个新视角视频，大大提高了空间和时间轴上的一致性。这不仅确保了多个视角和时间戳中对象外观的一致性，还实现了更轻量级的4D优化框架，无需使用多个扩散模型进行繁琐的得分蒸馏采样（SDS）。

Stable Video 4D 可以在大约40秒内生成跨越8个视角的5帧视频，整个4D优化过程大约需要20到25分钟。该技术在游戏开发、视频编辑和虚拟现实领域具有广泛的应用前景。专业人员可以利用此技术从多个视角可视化对象，增强产品的真实感和沉浸感。

SV4D的主要功能之一是从单个视频生成多视角的视频帧。这意味着给定一个单视角的视频，SV4D能够生成该视频中对象在多个不同视角下的帧，并确保这些帧在时间上的一致性。这一功能在以下几个方面表现出色：

SV4D不仅仅是生成多视角的视频帧，它还能够使用这些生成的视角视频来优化动态3D对象的4D表示。具体来说，SV4D通过以下步骤实现这一点：

为了处理长视频输入，SV4D采用了一种混合采样方案。该方案在以下方面发挥了重要作用：

在生成过程中，SV4D采用了一种自适应的引导缩放策略，以确保生成的图像在帧轴和视图轴上的一致性。这种策略结合了帧轴的线性增长和视图轴的三角波形变化，有效避免了图像过度锐化或饱和的问题。

SV4D使用了最新的扩散模型技术来实现高质量的视频生成和多视图生成。扩散模型是一类生成模型，通过逐步去噪的方法生成数据。具体到SV4D，使用了Stable Video Diffusion (SVD) 和 SV3D 模型，并在此基础上进行了改进：

为了在时间和视角上保持生成内容的一致性，SV4D在扩散模型中加入了视图注意力和帧注意力模块：

为了训练SV4D，研究者从现有的Objaverse数据集中策划了一个新的4D数据集，命名为ObjaverseDy。这个数据集包含了大量的动态3D对象，研究者通过以下步骤进行策划和处理：

SV4D采用了一种混合采样方案，以处理长视频输入并保持输出图像网格的一致性：

使用SV4D生成的多视图视频来优化动态3D对象的4D表示，具体步骤如下：

在生成过程中，SV4D采用了一种自适应的引导缩放策略，以确保生成的图像在帧轴和视图轴上的一致性：

在优化过程中，SV4D使用了多种损失函数来提高生成内容的质量和一致性：

视频帧一致性（FVD-F）：SV4D在视频帧一致性方面表现显著优于现有方法。例如，与SV3D和STAG4D相比，SV4D的FVD-F分别降低了31.5%和21.4%。
多视角一致性（FVD-V）：SV4D在多视角一致性上也表现优异，生成的视频在不同视角之间更加一致。
4D一致性（FVD-Diag和FV4D）：SV4D在4D一致性评估中同样表现突出，证明其生成的多视角视频具有更好的时间和空间一致性。

视觉比较：SV4D生成的视频在几何和纹理细节上更加忠实于输入视频，并且在多帧和多视角上一致性更好。相比之下，其他方法生成的视频可能会出现几何失真和纹理不一致的问题。
用户研究：在用户研究中，SV4D的生成结果被参与者显著更喜欢。在多视角视频合成的用户偏好测试中，SV4D的结果比SV3D、Diffusion2和STAG4D更受青睐。