Loopy：通过音频驱动静态照片生成动态视频并能生成自然动作，表情变化、头部移动等

传统的音频驱动肖像动画生成方法通常需要手动设定运动模板，这在生成动态肖像时可能限制其灵活性和自然性。Loopy 针对这一问题，提出了一种去除空间模板约束的生成方法，只需要音频输入就可以生成高质量的肖像动画，并且生成头部和面部的自然动作，如表情变化、头部移动等。 通过设计的跨片段和片段内的时间模块以及音频到潜变量的转换模块，Loopy 能够从音频中学习长时间的运动信息，生成自然的运动模式。该方法摒弃了现有技术中手动指定空间运动模板的需求，生成更具生命感和高质量的动态肖像。模型不仅支持各种音频和视觉风格，还能够生成诸如叹息、情感驱动的眉毛和眼睛动作以及自然的头部运动等细节。 Loopy 可以根据不同的音频输入为同一参考图像生成适应不同节奏的动态结果，如快速的、平缓的或真实的歌唱表现。此外，该模型对侧面图像和非人类图像也有出色的支持，展现了其在多种场景中的灵活性。 [video width="512" height="512" mp4="https://img.xiaohu.ai/2024/09/sing_1.mp4" preload="auto"][/video] Loopy解决了哪些问题？ 动作自然性不足 ：现有的音频驱动人像视频生成方法经常依赖辅助的空间模板（如人脸定位器或速度层）来保证生成视频的稳定性。这种方法虽然能够稳定动作，但限制了动作的自由度，导致生成的动作僵硬、不自然。Loopy通过完全基于音频信号来驱动动作，消除了这种限制，生成的动作更加灵活自然。 音频与动作的弱相关性 ：在音频驱动模型中，音频与头像动作之间的相关性较弱，现有方法难以充分利用音频信息生成匹配的动作。Loopy通过引入“音频到隐变量”的模块，增强了音频与动作的关联性，使得生成的动作与音频更加同步和自然。 长时间运动信息缺失 ：很多现有方法在处理视频时，只考虑短期的运动信息（例如几帧的前后关联），无法捕捉长期的运动模式，导致生成的动作缺乏连贯性和自然的时间演变。Loopy通过设计跨片段和片段内的时间模块，能够学习和利用更长时间的运动信息，从而生成更加连贯和自然的动作。 [video width="512" height="512" mp4="https://img.xiaohu.ai/2024/09/main_2.mp4"][/video] 主要功能与特点 1. 长时间依赖的运动生成 Loopy 能够通过捕捉音频中的长时间运动信息，生成自然流畅的肖像动画。使用的跨片段与片段内的时间模块可以确保生成的动画在短期和长期内保持连贯，生成更自然的动态效果。 2. 多样化的音频适应性 Loopy 能够根据不同类型的音频输入生成与之匹配的运动表现。无论是快速的讲话、平缓的叙述，还是情感驱动的歌唱音频，Loopy 都能生成对应的动态效果，适应不同节奏、情感和风格的音频。 3. 无模板约束的自动化生成 Loopy 摒弃了传统音频驱动生成方法中需要手动设定空间运动模板的限制。通过自主学习音频中的运动模式，Loopy 可以自动生成逼真的肖像动画，无需人为干预，提升了生成过程的效率和灵活性。 4. 视觉和音频风格的多样性 Loopy 支持多种视觉和音频风格，不仅适用于人类肖像，还可以生成非人类角色的动画。此外，它对侧面图像的生成也表现出色，展示了在多种视觉场景中的适应性。 5. 逼真的细节生成 Loopy 能够生成高度逼真的细节，包括面部的微表情、眉毛和眼睛的细微变化以及头部的自然运动。它还支持生成非言语动作（如叹息、情感驱动的面部表情），使动画更加生动。 6. 支持歌唱场景 Loopy 可以根据歌唱音频生成同步的面部和头部动作，尤其适用于与音乐表演相关的场景，如歌手的口型同步、表情和情感表达等。 7. 处理复杂的非人类图像 Loopy 不仅可以生成人类肖像，还能够处理非人类角色的图像，生成动画结果。这扩大了模型的应用范围，使其能够适用于多种生成需求。 8. 长时间的自然运动 通过跨片段的时间建模，Loopy 能够生成长时间段的自然运动，使得肖像动画在连续的时间序列中保持一致性和连贯性。 技术方法详细介绍 Loopy 的技术架构旨在通过音频输入生成自然的肖像动画，摆脱传统的手动运动模板，依赖音频本身来驱动面部和头部的动态生成。以下是 Loopy 实现这一目标的关键技术方法： 1. 端到端音频驱动视频生成模型 Loopy 是一个端到端的生成模型，从输入音频到输出视频生成，整个过程无需中间的人工干预。模型的设计集成了两个核心模块： 跨片段与片段内的时间模块 ：用于捕捉长时间的运动依赖。 音频到潜变量（latent）的映射模块 ：将音频输入映射到高维潜变量空间，为生成运动提供输入特征。 这些模块通过音频特征驱动肖像中的动作生成，能在长时间序列上展现出流畅、逼真的动态效果。 2. 跨片段与片段内时间依赖建模 跨片段时间模块 ： Loopy 采用的跨片段时间模块（inter-clip temporal module）用于捕捉不同时间段内的动作变化。这一模块让模型不仅能够学习到每一帧的独立运动，还能理解这些帧之间的关系，确保长时间运动的连贯性。例如，在说话过程中，面部表情、头部转动、眼睛眨动等动作之间存在密切的关联性，模型能够通过这一模块协调这些动作的顺序和节奏。 片段内时间模块 ： 片段内时间模块（intra-clip temporal module）用于在短时间范围内对动作的细节进行建模。它处理的是面部的细微运动，例如嘴唇张合、眉毛的微微抬起、眼睛的眨动等。这些细微的动作是生成自然表情动画的关键。 这两个时间模块结合在一起，使得 Loopy 能够从音频中提取与时序相关的长短期运动信息，确保生成结果的自然连贯。 3. 音频到潜变量的映射 Loopy 的另一个核心技术是音频到潜变量的映射（audio-to-latent module）。这一模块负责将输入的音频信号转换为高维的潜变量表达，为模型的后续生成过程提供运动特征。这种潜变量表征不仅仅包含音频中的语音内容，还能捕捉到音频的情感、节奏、语调等特征。 该模块允许 Loopy 从音频中学习到面部的运动模式。例如： 在情感驱动的音频中，音频到潜变量的映射模块会捕捉到音频中蕴含的情感信息，如开心、悲伤、愤怒等，从而驱动相应的面部表情。 在歌唱音频中，模型能够从音调、节奏等方面获取运动特征，以同步生成口型、表情等动作。 4. 扩散模型的应用 Loopy 使用了一种基于扩散过程的生成模型，具体为视频扩散模型。这种方法通过将复杂的生成过程分解为一系列简单的随机过程，从而逐步逼近生成目标。扩散模型的特点是能够生成高质量的图像和视频，并且具备很强的泛化能力。 在 Loopy 中，扩散模型的应用使得生成的肖像动画具有更好的细节表现和质量。模型通过在多个扩散步骤中逐步生成高维数据，并结合音频特征输入，生成逼真、生动的肖像动画。 5. 无模板约束的生成策略 传统的音频驱动生成模型通常需要手动指定空间运动模板，以确保生成的运动符合逻辑。然而，Loopy 的生成过程完全去除了这种手动模板的需求。模型通过自主学习音频中的运动模式，从音频中直接推导出自然的运动信息，无需依赖外部的运动模板。 这一策略极大地提升了模型的适应性和灵活性，适用于多种不同风格的音频和视觉输入。模型不仅能在常规说话场景中生成高质量的动画，还能处理情感表达丰富的歌唱场景以及复杂的非人类图像。 6. 音频和视觉风格的多样性 Loopy 的设计使得它不仅支持人类肖像，还能够处理各种不同的视觉风格。通过对不同类型音频的适应，模型能够生成与音频情感、节奏相匹配的动态表现。具体来说： 在情感音频中，Loopy 能捕捉到音频中的情感特征，生成相应的面部表情和情感驱动的运动。 在快速的语速或歌唱场景中，Loopy 能通过音频中的节奏、语调生成同步的口型、表情和头部动作。 此外，Loopy 还可以处理非人类角色的输入图像，这为其在游戏、动画、虚拟助手等场景中的应用开辟了更多可能性。 7. 实验与结果 在大量实验中，Loopy 展现出比现有方法更优的表现。特别是在面部表情的微表情、头部运动和眼睛动作等细节生成方面，Loopy 显示了极强的能力。模型生成的动画不仅更加自然，而且能根据音频中的微妙变化，展现出丰富的情感表达。 Loopy 还在生成侧面图像和非人类图像方面取得了显著成果，这一能力在许多现有音频驱动方法中是难以实现的。 一些案例 [video width="512" height="512" mp4="https://img.xiaohu.ai/2024/09/main_1.mp4"][/video] [video width="512" height="512" mp4="https://img.xiaohu.ai/2024/09/main_3.mp4"][/video] [video width="512" height="512" mp4="https://img.xiaohu.ai/2024/09/diverse_3.mp4"][/video] [video width="512" height="512" mp4="https://img.xiaohu.ai/2024/09/diverse_6.mp4"][/video] [video width="512" height="512" mp4="https://img.xiaohu.ai/2024/09/sing_2.mp4"][/video] [video width="512" height="512" mp4="https://img.xiaohu.ai/2024/09/sing_3.mp4"][/video] [video width="512" height="512" mp4="https://img.xiaohu.ai/2024/09/nonhuman_1.mp4"][/video] [video width="512" height="512" mp4="https://img.xiaohu.ai/2024/09/side_1.mp4"][/video] 项目地址： https://loopyavatar.github.io/ 论文： https://arxiv.org/pdf/2409.02634

Menu

分类目录

Loopy：通过音频驱动静态照片生成动态视频并能生成自然动作，表情变化、头部移动等

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

Anthropic 公布了一种全新的 AI 越狱技术可以轻松破解所有前沿模型

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

Recommendeds

MoneyPrinterTurbo：利用大语言模型一键生成1分钟长的短视频

Eye Contact：目光矫正 API 自动调整视频、直播中眼睛的视线方向

科学家研究出一种新方法只需涂抹特殊溶液就能使活体动物的组织变得透明

Florence-2：微软全新开源视觉模型能够执行超过10种不同的视觉任务

卡内基梅隆大学数学系的教授、美国IMO国家队的教练：人类需要进入高度戒备状态

StockBot：由Llama3-70B驱动的实时股票数据和新闻的聊天机器人

面壁智能发布 MiniCPM 3.0 声称端侧模型 ChatGPT 时刻到来

阿里云发布Qwen2.5 系列基础开源模型和Qwen2.5-Coder 和 Qwen2.5-Math专有模型

Command-R：高性能企业级语言模型跨语言交互与自动化工具集成

Libcimbar：无需联网、蓝牙、NFC 扫描二维码即可传输文件

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Menu

分类目录

Loopy：通过音频驱动静态照片生成动态视频 并能生成自然动作，表情变化、头部移动等

Support authors and subscribe to content

加入会员

Related Posts

Recommendeds

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Loopy：通过音频驱动静态照片生成动态视频并能生成自然动作，表情变化、头部移动等