Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

VASA-1:一张静态图像 + 一段语音生成逼真的对话面部视频

by 小互
2024年4月18日
in AI 项目
0 0
0
VASA-1:一张静态图像 + 一段语音生成逼真的对话面部视频
0
SHARES
923
VIEWS
Share on FacebookShare on Twitter

VASA-1,由微软亚洲研究员开发的项目,可以实现从单一静态图像和一段语音音频生成逼真的对话面部动画。VASA-1 不仅能够精确同步音频和唇部动作,还能捕捉到丰富的面部细微表情和自然的头部动作,增强了真实感和生动感。

l5

支持1分钟的音频输入

主要功能:

  1. 逼真的面部动画: VASA-1 能够根据单一静态图像和一段语音音频,生成逼真的对话面部视频。这包括唇部运动与音频的精确同步,以及复杂的面部表情和头部动作。
  2. 高度自然的头部动作: 除了面部表情,VASA-1 还能生成自然的头部运动,如点头和转头,这些都是人类交流中常见的非语言行为。
  3. 实时视频生成: 利用 NVIDIA RTX 4090 GPU,实现了高性能的视频生成,支持离线模式下的 512×512 分辨率视频以 45fps 生成,以及在线流模式下的 40fps 生成速度,前置延迟仅 170 毫秒。这种高效的视频处理能力使其非常适合实时应用,如虚拟现实、增强现实和视频游戏,同时也适用于需要高帧率和低延迟的专业视频内容制作和直播。
    realtime_demo
  4. 泛化能力:模型即使面对与训练时不同的音频或图像(比如不同的语言或非常规的艺术照片),也能够有效工作,这显示了它强大的适应能力。

    名画人物

    o6

    动画人物

    o5

    支持中文等多种语言

    o2

    还可以唱歌

  5. 解耦能力:模型能够将人脸的不同动态特征(如嘴唇运动、表情、眼睛注视方向等)独立处理和控制的能力。在VASA-1模型中,通过建立一个包含全面面部动态和头部动作的潜在空间,实现了高度的解耦。这一潜在空间允许模型单独操控生成过程中的各个面部特征,从而在应用中可以根据需要对特定的动态进行精细调整,如单独改变头部姿势而不影响面部表情。这种解耦设计不仅增强了模型的可控性,也提高了生成内容的自然性和多样性。

    姿势和表情编辑(原始生成结果、只生成姿势的结果、只生成表情的结果以及带有旋转姿势的表情)

  6. 生成的可控性:通过引入可选的条件信号,如主要的眼睛注视方向、头部距离和情绪偏移,大大增强了视频生成的可控性。以下是这些信号如何有助于产生更受控制和更具动态性的视频输出:

    1. 眼睛注视方向:

      • 此信号允许模型控制生成的人物头像的注视方向,使得视频中的虚拟角色可以模拟出注视特定对象或某个方向的自然行为,增强了人物表现的真实性和互动性。
    2. 头部距离:

      • 通过调整头部与摄像机的距离,可以改变视频中人物的视觉比例和观感。这不仅可以应用于个性化用户体验,还可以根据具体的场景需求调整人物在画面中的呈现方式。
    3. 情绪偏移:

      • 情绪偏移信号允许在生成过程中加入特定的情绪表达,如快乐、悲伤或愤怒等,从而使得生成的视频能够更好地传达特定的情绪和氛围,适用于需要情感交互的应用场景,如互动教学、广告或虚拟客服等。
        female_scale

        不同头部与摄像机距离标度下的生成结果

        male_emotion

         

        不同情绪偏移(分别为中性、快乐、愤怒和惊讶)下的生成结果

        female_gaze

        不同主要注视方向(分别为前向、左向、右向和上向)下的生成结果

技术原理

VASA-1 项目利用了一系列先进的计算机视觉和机器学习技术,实现了高度逼真的音频驱动的对话面部动画。下面详细介绍其核心技术原理:

1. 面部潜在空间构建

VASA-1 通过构建一个面部潜在空间来生成动态的面部表情和头部动作。这一空间是通过分析和处理大量面部视频数据建立的,目的是在保持高度表现力的同时实现面部动态和其他因素(如身份和外观)之间的解耦。

  • 数据集处理:使用大量的面部视频数据,通过自监督或弱监督的方式训练模型,确保面部表情和头部动作的自然和逼真。
  • 3D 辅助表征:引入3D模型来帮助表征和生成面部动态,这包括3D头部姿势和面部表情的合成,增加了生成动画的真实感和准确性。

2. 整体面部动态和头部动作生成

使用基于扩散的模型(Diffusion Model)和变换器(Transformer)结构,在潜在空间中生成整体的面部动态和头部动作。

  • 扩散模型:这是一种生成模型,通过逐步增加噪声并再逐步去除噪声来生成数据,非常适合处理复杂的数据分布,如人脸动画。
  • Transformer架构:利用Transformer的强大能力来处理序列数据,使得生成的面部动画不仅与原始音频同步,而且能够捕捉到微妙的面部表情变化。

3. 音频条件化的生成控制

VASA-1 模型能够接受音频输入,并根据该音频生成对应的面部动画和头部动作,实现高度同步和自然表达。

  • 音频特征提取:使用先进的音频处理技术(如 Wav2Vec)提取音频特征,这些特征随后被用作生成模型的条件输入。
  • 可控生成:除了音频,模型还可以接受其他控制信号(如眼睛注视方向、头部与相机的距离、情感偏移等),以进一步细化和个性化生成的动画。

4. 实时生成支持

VASA-1 支持高效的实时生成,能够在几乎没有启动延迟的情况下,生成高分辨率的视频流。

  • 优化算法:通过算法优化确保模型在保持高质量输出的同时,运行速度快,满足实时应用的需求。
  • 硬件加速:利用现代计算硬件(如 GPU 加速)来提高处理速度,支持更复杂的模型和更高的帧率。

一些案例:

l3

 

11
7
10

(注:本页面上的所有肖像图像都是由 StyleGAN2 或 DALL-E-3 生成的虚拟、不存在的身份(蒙娜丽莎除外)。

项目及演示:https://www.microsoft.com/en-us/research/project/vasa-1/

论文:https://arxiv.org/abs/2404.10667

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
472
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
329
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
440
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
275
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
602
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
421

Recommendeds

Med-Gemini:基于Google Gemini的多模态医学大模型 可以理解手术视频

Med-Gemini:基于Google Gemini的多模态医学大模型 可以理解手术视频

551 VIEWS
2024年4月30日
FLUX 1.1 Pro Ultra 发布 支持高达 4 兆像素的分辨率 每张图片仅需约 10 秒

FLUX 1.1 Pro Ultra 发布 支持高达 4 兆像素的分辨率 每张图片仅需约 10 秒

268 VIEWS
2024年11月7日
Color Health 与OpenAI 合作 开发出Cancer Copilot 加速癌症患者治疗

Color Health 与OpenAI 合作 开发出Cancer Copilot 加速癌症患者治疗

130 VIEWS
2024年6月18日
Kotaemon:一个开源、干净且可定制的 RAG UI 可以于与你的文档聊天

Kotaemon:一个开源、干净且可定制的 RAG UI 可以于与你的文档聊天

306 VIEWS
2024年8月31日
Spline 推出3D设计工具:AI 3D Generation 支持文本生成3D模型

Spline 推出3D设计工具:AI 3D Generation 支持文本生成3D模型

422 VIEWS
2024年4月17日
Pandora:能够根据自然语言指令生成视频 并能实时进行视频控制的通用世界模型

Pandora:能够根据自然语言指令生成视频 并能实时进行视频控制的通用世界模型

140 VIEWS
2024年5月24日
StructLDM:根据2D图像的学习 自动生成3D的人体模型

StructLDM:根据2D图像的学习 自动生成3D的人体模型

281 VIEWS
2024年4月8日
TikTok 推出生成式 AI 内容工具套件Symphony 包含一系列 AI 内容生成工具

TikTok 推出生成式 AI 内容工具套件Symphony 包含一系列 AI 内容生成工具

830 VIEWS
2024年6月20日
让 AI 像人类一样通过试错法学习决策和推理 提高其逻辑推理和数学能力

让 AI 像人类一样通过试错法学习决策和推理 提高其逻辑推理和数学能力

92 VIEWS
2024年6月16日
ChatMusician: 基于LLaMA 2 能够理解和生成音乐的大语言模型

ChatMusician: 基于LLaMA 2 能够理解和生成音乐的大语言模型

13 VIEWS
2024年3月14日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版