Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

EMO:一张照片+音频即可生成会说话唱歌的视频

by 小互
2024年4月25日
in AI 项目
0 0
0
0
SHARES
837
VIEWS
Share on FacebookShare on Twitter
该项目由阿里巴巴开发,利用单张图像和音频输入(如说话或唱歌),EMO能够生成具有表情变化和头部动态的虚拟人像视频。
 
你只需要提供一张你的照片+任意的音频文件,就能实现你说任何话或唱任何歌曲的动态视频。
 
同时生成视频的长度和你音频长度相匹配!
EMO能够接收一张单一的参考人像图片和音频(如说话或唱歌)作为输入,然后生成与音频同步的、表情丰富的虚拟人像视频。这一过程不仅能够捕捉到面部表情的微妙变化,还能够保持人物在较长时间内的身份一致性,支持多种语言和肖像风格,适用于多样化的应用场景,如动画制作、虚拟现实、游戏开发等。
https://img.xiaohu.ai/2024/02/song_mola.mp4

主要特点和功能

  1. 音频驱动的人像视频生成: 利用单张参考图像和音频输入(如说话或唱歌),EMO能够生成具有表情变化和头部动态的虚拟人像视频。这意味着用户可以通过提供一张静态图片和相应的音频文件,来创造出说话或唱歌的动态视频。无论视频中的人物进行怎样的表情变化或头部动作,其基础特征都来源于这张参考图片。

  2. 表情丰富的动态渲染: EMO特别强调在视频中生成自然而富有表情的面部动作,能够捕捉到音频中情感的细微差别,并将其反映在人像的表情上,从而生成看起来自然、生动的面部动画。

  3. 多头部姿势支持: 除了面部表情外,EMO还能够根据音频生成多样的头部姿势变化,增加了视频的动态性和真实感。

  4. 支持多种语言和肖像风格: 该技术不限于特定语言或音乐风格,能够处理多种语言的音频输入,并且支持多样化的肖像风格,包括历史人物、绘画作品、3D模型和AI生成内容等。

  5. 快速节奏同步: EMO能够处理快节奏的音频,如快速的歌词或说话,确保虚拟人像的动作与音频节奏保持同步。

  6. 跨演员表现转换: EMO能够实现不同演员之间的表现转换,使得一位演员的虚拟形象能够模仿另一位演员或声音的特定表演,拓展了角色描绘的多样性和应用场景。

https://img.xiaohu.ai/2024/02/song_cxk.mp4

工作原理

EMO项目的工作原理基于以下几个关键步骤:

  1. 帧编码(Frames Encoding): 在这一阶段,使用名为ReferenceNet的网络从给定的参考图像和运动帧中提取特征。这包括识别人像的关键特征,如面部轮廓、眼睛、嘴巴等位置和形状。

  2. 音频处理: 通过预训练的音频编码器对输入的音频进行处理,得到音频嵌入。这个过程涉及到分析音频的节奏、音高和音量等信息,以便后续生成与音频同步的面部表情和头部动作。

  3. 扩散过程(Diffusion Process): 在这一阶段,结合音频嵌入和多帧噪声,通过一个称为背景网络的深度学习模型进行去噪操作,生成面部图像。背景网络内部利用了两种注意力机制:参考注意力(Reference-Attention)和音频注意力(Audio-Attention),分别用于保持人物身份的一致性和调节人物的动作。

  4. 时间模块(Temporal Modules): 为了处理视频中的时间维度,使用时间模块来调整运动的速度,确保视频中的动作平滑且自然。

  5. 生成视频: 最终,将处理后的帧序列合成为视频,每一帧都包含了与输入音频同步的表情和头部姿势变化。通过这种方式,EMO能够生成表情丰富、动作自然的人像视频,长度可以根据输入音频的时长自由调整。

https://img.xiaohu.ai/2024/02/talk_sora.mp4

具体步骤

具体来说,这个过程包含几个关键步骤:

  1. 参考图片: 用户提供一张人像图片作为参考,这张图片决定了视频中人物的基本外观。这意味着,无论视频中的人物进行怎样的表情变化或头部动作,其基础特征都来源于这张参考图片。

  2. 声音输入: 用户还需要提供一段声音输入,这可以是一段对话、朗读或歌唱。这段声音不仅仅是视频的音轨,更是驱动人物表情和头部姿势变化的关键。

  3. 表情和姿势生成: 基于声音输入,EMO技术分析其节奏、音调和强度等特征,然后根据这些音频特征,生成与之相匹配的面部表情和头部姿势。比如,当音频中出现高兴的声音时,视频中的人物就会展示出笑容;当音频节奏加快时,人物的头部动作也会相应变得更加活跃。

  4. 视频持续时间的调整: 生成的视频长度并不是固定的,而是可以根据输入音频的长度灵活调整。这意味着,无论提供的音频是一小段对白还是一整首歌曲,EMO都能生成与之长度相匹配的视频。

一些演示

https://img.xiaohu.ai/2024/02/赫本16_9.mp4
song_melody (1)
talk_yomir
talk_emotion
talk_gqq (1)

项目地址:https://humanaigc.github.io/emote-portrait-alive/

论文:https://arxiv.org/abs/2402.17485

GitHub:https://github.com/HumanAIGC/EMO

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
472
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
329
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
440
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
275
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
602
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
421

Recommendeds

吴恩达AI课程:AI Python 初学者课程 每节课5分钟 1小时学会AI Python编程

吴恩达AI课程:AI Python 初学者课程 每节课5分钟 1小时学会AI Python编程

2k VIEWS
2024年9月11日
迪斯尼公布 BD-X双足机器人的设计图纸和主要技术方法

迪斯尼公布 BD-X双足机器人的设计图纸和主要技术方法

403 VIEWS
2024年7月23日
Google推出Gemma 2 2B模型 能够在手机、笔记本电脑、台式机等边缘设备上运行

Google推出Gemma 2 2B模型 能够在手机、笔记本电脑、台式机等边缘设备上运行

461 VIEWS
2024年8月1日
ReVideo:允许用户对视频特定区域和视频对象的运动轨迹进行精确编辑

ReVideo:允许用户对视频特定区域和视频对象的运动轨迹进行精确编辑

221 VIEWS
2024年5月27日
奥特曼:GPT-5的能力提升将超乎想象…许多公司将面临被碾压淘汰

奥特曼:GPT-5的能力提升将超乎想象…许多公司将面临被碾压淘汰

48 VIEWS
2024年3月18日
将Llama-3 的上下文长度从8K扩展到超过100万

将Llama-3 的上下文长度从8K扩展到超过100万

298 VIEWS
2024年5月5日
特斯拉We Robot 发布会全纪录:完全无人驾驶出租车、Optimus 机器人、Robovan(机器人巴士)

特斯拉We Robot 发布会全纪录:完全无人驾驶出租车、Optimus 机器人、Robovan(机器人巴士)

306 VIEWS
2024年10月11日
Molmo 一个完全开源的多模态模型 支持2D指向交互 性能仅次于GPT-4o

Molmo 一个完全开源的多模态模型 支持2D指向交互 性能仅次于GPT-4o

340 VIEWS
2024年9月26日
装备AI瞄准步枪的机器狗 接受了美国海军陆战队特种作战评估

装备AI瞄准步枪的机器狗 接受了美国海军陆战队特种作战评估

226 VIEWS
2024年5月19日
每首歌索赔 15 万美元 索尼、环球音乐、华纳起诉 Suno 和 Udio

每首歌索赔 15 万美元 索尼、环球音乐、华纳起诉 Suno 和 Udio

262 VIEWS
2024年6月26日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版