Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

VASA-1:一张静态图像 + 一段语音生成逼真的对话面部视频

by 小互
2024年4月18日
in AI 项目
0 0
0
VASA-1:一张静态图像 + 一段语音生成逼真的对话面部视频
0
SHARES
924
VIEWS
Share on FacebookShare on Twitter

VASA-1,由微软亚洲研究员开发的项目,可以实现从单一静态图像和一段语音音频生成逼真的对话面部动画。VASA-1 不仅能够精确同步音频和唇部动作,还能捕捉到丰富的面部细微表情和自然的头部动作,增强了真实感和生动感。

视频播放器
l5

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/04/l5.mp4
00:00
00:00
00:00
使用上/下箭头键来增高或降低音量。

支持1分钟的音频输入

主要功能:

  1. 逼真的面部动画: VASA-1 能够根据单一静态图像和一段语音音频,生成逼真的对话面部视频。这包括唇部运动与音频的精确同步,以及复杂的面部表情和头部动作。
  2. 高度自然的头部动作: 除了面部表情,VASA-1 还能生成自然的头部运动,如点头和转头,这些都是人类交流中常见的非语言行为。
  3. 实时视频生成: 利用 NVIDIA RTX 4090 GPU,实现了高性能的视频生成,支持离线模式下的 512×512 分辨率视频以 45fps 生成,以及在线流模式下的 40fps 生成速度,前置延迟仅 170 毫秒。这种高效的视频处理能力使其非常适合实时应用,如虚拟现实、增强现实和视频游戏,同时也适用于需要高帧率和低延迟的专业视频内容制作和直播。
    视频播放器
    realtime_demo

    Media error: Format(s) not supported or source(s) not found

    下载文件: https://img.xiaohu.ai/2024/04/realtime_demo.mp4
    00:00
    00:00
    00:00
    使用上/下箭头键来增高或降低音量。
  4. 泛化能力:模型即使面对与训练时不同的音频或图像(比如不同的语言或非常规的艺术照片),也能够有效工作,这显示了它强大的适应能力。

    名画人物

    视频播放器
    o6

    Media error: Format(s) not supported or source(s) not found

    下载文件: https://img.xiaohu.ai/2024/04/o6.mp4
    00:00
    00:00
    00:00
    使用上/下箭头键来增高或降低音量。

    动画人物

    视频播放器
    o5

    Media error: Format(s) not supported or source(s) not found

    下载文件: https://img.xiaohu.ai/2024/04/o5.mp4
    00:00
    00:00
    00:00
    使用上/下箭头键来增高或降低音量。

    支持中文等多种语言

    视频播放器
    o2

    Media error: Format(s) not supported or source(s) not found

    下载文件: https://img.xiaohu.ai/2024/04/o2.mp4
    00:00
    00:00
    00:00
    使用上/下箭头键来增高或降低音量。

    还可以唱歌

  5. 解耦能力:模型能够将人脸的不同动态特征(如嘴唇运动、表情、眼睛注视方向等)独立处理和控制的能力。在VASA-1模型中,通过建立一个包含全面面部动态和头部动作的潜在空间,实现了高度的解耦。这一潜在空间允许模型单独操控生成过程中的各个面部特征,从而在应用中可以根据需要对特定的动态进行精细调整,如单独改变头部姿势而不影响面部表情。这种解耦设计不仅增强了模型的可控性,也提高了生成内容的自然性和多样性。

    姿势和表情编辑(原始生成结果、只生成姿势的结果、只生成表情的结果以及带有旋转姿势的表情)

  6. 生成的可控性:通过引入可选的条件信号,如主要的眼睛注视方向、头部距离和情绪偏移,大大增强了视频生成的可控性。以下是这些信号如何有助于产生更受控制和更具动态性的视频输出:

    1. 眼睛注视方向:

      • 此信号允许模型控制生成的人物头像的注视方向,使得视频中的虚拟角色可以模拟出注视特定对象或某个方向的自然行为,增强了人物表现的真实性和互动性。
    2. 头部距离:

      • 通过调整头部与摄像机的距离,可以改变视频中人物的视觉比例和观感。这不仅可以应用于个性化用户体验,还可以根据具体的场景需求调整人物在画面中的呈现方式。
    3. 情绪偏移:

      • 情绪偏移信号允许在生成过程中加入特定的情绪表达,如快乐、悲伤或愤怒等,从而使得生成的视频能够更好地传达特定的情绪和氛围,适用于需要情感交互的应用场景,如互动教学、广告或虚拟客服等。
        视频播放器
        female_scale

        Media error: Format(s) not supported or source(s) not found

        下载文件: https://img.xiaohu.ai/2024/04/female_scale.mp4
        00:00
        00:00
        00:00
        使用上/下箭头键来增高或降低音量。

        不同头部与摄像机距离标度下的生成结果

        视频播放器
        male_emotion

        Media error: Format(s) not supported or source(s) not found

        下载文件: https://img.xiaohu.ai/2024/04/male_emotion.mp4
        00:00
        00:00
        00:00
        使用上/下箭头键来增高或降低音量。

         

        不同情绪偏移(分别为中性、快乐、愤怒和惊讶)下的生成结果

        视频播放器
        female_gaze

        Media error: Format(s) not supported or source(s) not found

        下载文件: https://img.xiaohu.ai/2024/04/female_gaze.mp4
        00:00
        00:00
        00:00
        使用上/下箭头键来增高或降低音量。

        不同主要注视方向(分别为前向、左向、右向和上向)下的生成结果

技术原理

VASA-1 项目利用了一系列先进的计算机视觉和机器学习技术,实现了高度逼真的音频驱动的对话面部动画。下面详细介绍其核心技术原理:

1. 面部潜在空间构建

VASA-1 通过构建一个面部潜在空间来生成动态的面部表情和头部动作。这一空间是通过分析和处理大量面部视频数据建立的,目的是在保持高度表现力的同时实现面部动态和其他因素(如身份和外观)之间的解耦。

  • 数据集处理:使用大量的面部视频数据,通过自监督或弱监督的方式训练模型,确保面部表情和头部动作的自然和逼真。
  • 3D 辅助表征:引入3D模型来帮助表征和生成面部动态,这包括3D头部姿势和面部表情的合成,增加了生成动画的真实感和准确性。

2. 整体面部动态和头部动作生成

使用基于扩散的模型(Diffusion Model)和变换器(Transformer)结构,在潜在空间中生成整体的面部动态和头部动作。

  • 扩散模型:这是一种生成模型,通过逐步增加噪声并再逐步去除噪声来生成数据,非常适合处理复杂的数据分布,如人脸动画。
  • Transformer架构:利用Transformer的强大能力来处理序列数据,使得生成的面部动画不仅与原始音频同步,而且能够捕捉到微妙的面部表情变化。

3. 音频条件化的生成控制

VASA-1 模型能够接受音频输入,并根据该音频生成对应的面部动画和头部动作,实现高度同步和自然表达。

  • 音频特征提取:使用先进的音频处理技术(如 Wav2Vec)提取音频特征,这些特征随后被用作生成模型的条件输入。
  • 可控生成:除了音频,模型还可以接受其他控制信号(如眼睛注视方向、头部与相机的距离、情感偏移等),以进一步细化和个性化生成的动画。

4. 实时生成支持

VASA-1 支持高效的实时生成,能够在几乎没有启动延迟的情况下,生成高分辨率的视频流。

  • 优化算法:通过算法优化确保模型在保持高质量输出的同时,运行速度快,满足实时应用的需求。
  • 硬件加速:利用现代计算硬件(如 GPU 加速)来提高处理速度,支持更复杂的模型和更高的帧率。

一些案例:

视频播放器
l3

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/04/l3.mp4
00:00
00:00
00:00
使用上/下箭头键来增高或降低音量。

 

视频播放器
11

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/04/11.mp4
00:00
00:00
00:00
使用上/下箭头键来增高或降低音量。
视频播放器
7

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/04/7.mp4
00:00
00:00
00:00
使用上/下箭头键来增高或降低音量。
视频播放器
10

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/04/10.mp4
00:00
00:00
00:00
使用上/下箭头键来增高或降低音量。

(注:本页面上的所有肖像图像都是由 StyleGAN2 或 DALL-E-3 生成的虚拟、不存在的身份(蒙娜丽莎除外)。

项目及演示:https://www.microsoft.com/en-us/research/project/vasa-1/

论文:https://arxiv.org/abs/2404.10667

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
474
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
330
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
441
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
276
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
603
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
423

Recommendeds

Prompt 学习地图 13 | 框架思维 – ICIO 框架 清晰描述模型要执行的任务

Prompt 学习地图 13 | 框架思维 – ICIO 框架 清晰描述模型要执行的任务

100 VIEWS
2024年4月18日
Prompt 学习地图 01 | 编写清晰的说明 – 多说两句,提供细节

Prompt 学习地图 01 | 编写清晰的说明 – 多说两句,提供细节

361 VIEWS
2024年3月25日
JetMoE-8B:不到10万美元的训练成本 性能却超越LLaMA2-7B

JetMoE-8B:不到10万美元的训练成本 性能却超越LLaMA2-7B

104 VIEWS
2024年4月16日
Twitter-Insight-LLM:抓取Twitter数据并可通过自然语言搜索图像

Twitter-Insight-LLM:抓取Twitter数据并可通过自然语言搜索图像

448 VIEWS
2024年4月19日
YOLOv8:目标检测跟踪模型 快速准确识别和定位图像中多个对象

YOLOv8:目标检测跟踪模型 快速准确识别和定位图像中多个对象

294 VIEWS
2024年3月12日
教程:成本不到2美金 使用你自己的照片 训练 一个自己的 FLUX LoRA

教程:成本不到2美金 使用你自己的照片 训练 一个自己的 FLUX LoRA

443 VIEWS
2024年9月3日
Perplexity 推出全新 AI 驱动购物助手:Shop Like a Pro 支持搜索结果一键下单

Perplexity 推出全新 AI 驱动购物助手:Shop Like a Pro 支持搜索结果一键下单

260 VIEWS
2024年11月19日
Facet AI:可以精确控制图像元素的展现 适合制作广告和专业图像

Facet AI:可以精确控制图像元素的展现 适合制作广告和专业图像

822 VIEWS
2024年4月8日
Search4All :开源的 AI 搜索引擎 分分钟打造你的Perplexity AI搜索引擎

Search4All :开源的 AI 搜索引擎 分分钟打造你的Perplexity AI搜索引擎

222 VIEWS
2024年3月25日
Meta FAIR发布人工多模态指尖 具有人类级别的触觉感知能力 增强机器人触觉感知

Meta FAIR发布人工多模态指尖 具有人类级别的触觉感知能力 增强机器人触觉感知

249 VIEWS
2024年11月3日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

- Select Visibility -

    No Result
    View All Result
    • Home
    • AI 工具
    • XiaoHu.AI 学院
      • AI 教程
      • AI 课程
    • XiaoHu.AI日报
    • 开源项目案例库
      • AI 论文
      • AI 资源
      • AI 项目
    • 加入会员
    • →社群
    • Login

    © 2024 Xiaohu.AI

    Are you sure want to unlock this post?
    Unlock left : 0
    Are you sure want to cancel subscription?
    转到手机版