Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

Stability AI 推出 Stable Video 4D 通过单个视频并生成八个新角度的动态新视角视频

by 小互
2024年7月25日
in AI 项目, XiaoHu.AI日报
0 0
0
0
SHARES
283
VIEWS
Share on FacebookShare on Twitter

Stability AI 宣布推出 Stable Video 4D(SV4D),这是一款创新模型,用户可以上传单个视频并生成八个新角度的动态新视角视频。

与以往需要从图像扩散模型、视频扩散模型和多视角扩散模型中取样的方法不同,SV4D 能够同时生成多个新视角视频,大大提高了空间和时间轴上的一致性。这不仅确保了多个视角和时间戳中对象外观的一致性,还实现了更轻量级的4D优化框架,无需使用多个扩散模型进行繁琐的得分蒸馏采样(SDS)。

Stable Video 4D 可以在大约40秒内生成跨越8个视角的5帧视频,整个4D优化过程大约需要20到25分钟。该技术在游戏开发、视频编辑和虚拟现实领域具有广泛的应用前景。专业人员可以利用此技术从多个视角可视化对象,增强产品的真实感和沉浸感。

主要功能特点

1. 多视图视频生成

SV4D的主要功能之一是从单个视频生成多视角的视频帧。这意味着给定一个单视角的视频,SV4D能够生成该视频中对象在多个不同视角下的帧,并确保这些帧在时间上的一致性。这一功能在以下几个方面表现出色:

  • 视图一致性:SV4D在生成的每一帧中,确保所有视角的图像都在空间上保持一致。这是通过模型中的视图注意力模块实现的。
  • 时间一致性:SV4D还确保在不同时间点的视角图像之间保持一致。这是通过模型中的帧注意力模块实现的。
nvs_comparison

2. 4D 表示优化

SV4D不仅仅是生成多视角的视频帧,它还能够使用这些生成的视角视频来优化动态3D对象的4D表示。具体来说,SV4D通过以下步骤实现这一点:

  • 参考视图生成:首先,通过现有的多视图生成模型(如SV3D)生成初始帧的参考视图。
  • 多帧生成:然后,SV4D联合生成其余帧的视角图像,确保这些图像在时间和视角上的一致性。
  • 动态4D优化:最后,利用生成的多视角视频,通过优化算法进一步提升动态3D对象的表示。这避免了以往方法中繁琐的基于SDS的优化过程。
4d_comparison

3. 混合采样方案

为了处理长视频输入,SV4D采用了一种混合采样方案。该方案在以下方面发挥了重要作用:

  • 内存效率:通过逐步处理输入视频的一个交错子集,避免了生成全图像网格所需的巨大内存需求。
  • 一致性保持:在处理子集时,保持输出图像网格的一致性。具体方法包括先生成一组稀疏的锚点帧,然后以这些锚点帧为新参考视图密集采样中间帧。
Figure_2

4. 自适应的引导缩放

在生成过程中,SV4D采用了一种自适应的引导缩放策略,以确保生成的图像在帧轴和视图轴上的一致性。这种策略结合了帧轴的线性增长和视图轴的三角波形变化,有效避免了图像过度锐化或饱和的问题。

使用的方法

1. 扩散模型

SV4D使用了最新的扩散模型技术来实现高质量的视频生成和多视图生成。扩散模型是一类生成模型,通过逐步去噪的方法生成数据。具体到SV4D,使用了Stable Video Diffusion (SVD) 和 SV3D 模型,并在此基础上进行了改进:

  • 视频扩散模型:使用Stable Video Diffusion (SVD)生成连续的、时间一致的视频帧。
  • 多视图扩散模型:使用SV3D生成同一时间点的多视角图像,确保视角之间的一致性。

2. 视图注意力和帧注意力模块

为了在时间和视角上保持生成内容的一致性,SV4D在扩散模型中加入了视图注意力和帧注意力模块:

  • 视图注意力模块:在生成每一帧时,视图注意力模块确保该帧的所有视角图像在空间上的一致性。
  • 帧注意力模块:在生成每个视角图像时,帧注意力模块确保该视角的所有帧在时间上的一致性。

3. 数据集策划

为了训练SV4D,研究者从现有的Objaverse数据集中策划了一个新的4D数据集,命名为ObjaverseDy。这个数据集包含了大量的动态3D对象,研究者通过以下步骤进行策划和处理:

  • 筛选对象:过滤掉动画帧过少或运动不足的对象,确保每个对象都具有足够的动态信息。
  • 灵活的相机距离选择:动态调整相机与对象之间的距离,以确保对象始终在渲染图像的帧内。
  • 动态时间采样:调整时间采样步长,以确保帧之间的运动足够明显。

4. 混合采样方案

SV4D采用了一种混合采样方案,以处理长视频输入并保持输出图像网格的一致性:

  • 锚点帧生成:首先,生成一组稀疏的锚点帧,这些锚点帧作为新参考视图,用于后续的密集采样。
  • 密集采样:以锚点帧为参考,密集采样中间帧,确保在时间和视角上的平滑过渡。

5. 4D 优化

使用SV4D生成的多视图视频来优化动态3D对象的4D表示,具体步骤如下:

  • 初始优化:先使用参考多视图图像优化静态NeRF表示。
  • 动态优化:然后解冻时间变形网络,并使用随机采样的视图和帧进行优化。

6. 自适应的引导缩放

在生成过程中,SV4D采用了一种自适应的引导缩放策略,以确保生成的图像在帧轴和视图轴上的一致性:

  • 帧轴线性增长:在时间轴上采用线性增长的引导缩放,确保从初始帧到最后一帧的一致性。
  • 视图轴三角波形变化:在视图轴上采用三角波形变化,避免过度锐化或饱和。

7. 多重损失函数

在优化过程中,SV4D使用了多种损失函数来提高生成内容的质量和一致性:

  • 像素级MSE损失:用于减少生成图像与真实图像之间的像素差异。
  • 感知损失:使用LPIPS损失来衡量生成图像在视觉上的相似性。
  • 几何先验:包括单目法线损失、双边深度和法线平滑损失,以确保生成的3D对象具有平滑的表面和一致的几何形状。

实验结果

定量比较
  • 视频帧一致性(FVD-F):SV4D在视频帧一致性方面表现显著优于现有方法。例如,与SV3D和STAG4D相比,SV4D的FVD-F分别降低了31.5%和21.4%。
  • 多视角一致性(FVD-V):SV4D在多视角一致性上也表现优异,生成的视频在不同视角之间更加一致。
  • 4D一致性(FVD-Diag和FV4D):SV4D在4D一致性评估中同样表现突出,证明其生成的多视角视频具有更好的时间和空间一致性。
定性比较
  • 视觉比较:SV4D生成的视频在几何和纹理细节上更加忠实于输入视频,并且在多帧和多视角上一致性更好。相比之下,其他方法生成的视频可能会出现几何失真和纹理不一致的问题。
  • 用户研究:在用户研究中,SV4D的生成结果被参与者显著更喜欢。在多视角视频合成的用户偏好测试中,SV4D的结果比SV3D、Diffusion2和STAG4D更受青睐。
应用前景
  • 游戏开发:SV4D在游戏开发中可以用于生成多视角的动态对象,提升游戏的真实感和沉浸感。
  • 视频编辑:在视频编辑中,SV4D可以提供高质量的多视角视频素材,增强编辑的灵活性和创意。
  • 虚拟现实:在虚拟现实领域,SV4D可以用于生成更真实和一致的虚拟对象,提升用户的沉浸体验。
性能总结表
性能指标 SV4D表现 对比方法表现
生成速度 40秒内生成8视角的5帧视频 传统方法需要数小时
多视角一致性 FVD-V显著低于对比方法 SV3D和STAG4D一致性较差
时间一致性 FVD-F显著低于对比方法 SV3D和STAG4D一致性较差
图像质量 LPIPS和CLIP-S表现良好 Diffusion2和其他方法可能模糊
4D一致性 FVD-Diag和FV4D表现优异 其他方法一致性较差
用户偏好 73.3%用户偏好SV4D生成结果 SV3D、Diffusion2和STAG4D偏好低

项目及演示:https://sv4d.github.io/

模型下载:https://huggingface.co/stabilityai/sv4d

论文:https://arxiv.org/abs/2407.17470

官方介绍:https://stability.ai/news/stable-video-4d

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
482
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
336
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
448
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
614
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

WebLlama:基于 Llama-3-8B 能通过对话进行网页浏览的智能代理

WebLlama:基于 Llama-3-8B 能通过对话进行网页浏览的智能代理

636 VIEWS
2024年4月27日
ACE Studio :AI人声合成引擎 制作像真人一样歌唱的AI歌手

ACE Studio :AI人声合成引擎 制作像真人一样歌唱的AI歌手

1.8k VIEWS
2024年4月2日
Khoj:一个开源的个人化AI 助手 能连接你的在线和本地文档 充当你的第二大脑

Khoj:一个开源的个人化AI 助手 能连接你的在线和本地文档 充当你的第二大脑

913 VIEWS
2024年5月29日
阿里云发布Qwen2.5 系列基础开源模型和Qwen2.5-Coder 和 Qwen2.5-Math专有模型

阿里云发布Qwen2.5 系列基础开源模型和Qwen2.5-Coder 和 Qwen2.5-Math专有模型

207 VIEWS
2024年9月20日
基于 ChatTTS 2600个音色库稳定性评分 并按性别和年龄分类 可试听

基于 ChatTTS 2600个音色库稳定性评分 并按性别和年龄分类 可试听

733 VIEWS
2024年6月17日
FoleyCrafter:精准的为无声视频自动配音 生成同步且逼真的声音

FoleyCrafter:精准的为无声视频自动配音 生成同步且逼真的声音

426 VIEWS
2024年7月11日
DisTrO:用你的家用电脑完成的去中心化人工智能训练

DisTrO:用你的家用电脑完成的去中心化人工智能训练

119 VIEWS
2024年9月3日
2024上半年《人工智能现状报告》来自750名AI行业领导者和技术人员的意见

2024上半年《人工智能现状报告》来自750名AI行业领导者和技术人员的意见

1.3k VIEWS
2024年7月3日
Search4All :开源的 AI 搜索引擎 分分钟打造你的Perplexity AI搜索引擎

Search4All :开源的 AI 搜索引擎 分分钟打造你的Perplexity AI搜索引擎

222 VIEWS
2024年3月25日
DataDreamer:简化大语言模型工作流程

DataDreamer:简化大语言模型工作流程

32 VIEWS
2024年3月3日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版