VLOGGER：基于文本和音频驱动，从单张照片生成会说话的人类视频

VLOGGER是一个利用文本和音频驱动的方法，可以从人的单张照片生成说话的人视频。 给定一张人的单张输入图像和一个音频样本，VLOGGER能够生成该人物讲话和生动移动的逼真且时间连贯的视频。与之前的方法不同，VLOGGER能够生成头部运动、注视、眨眼、嘴唇运动以及不同于之前方法的上身和手势动作，进一步推进了音频驱动合成的步骤。 VLOGGER的独特之处在于： - 不需要针对每个人进行训练。 - 不依赖于面部检测和裁剪。 - 生成的是完整图像（而不仅仅是面部或嘴唇）。 - 考虑了一系列广泛的场景（例如，可见的躯干或多样的身份特征），这对于正确合成交流的人类至关重要。 VLOGGER的主要能力 逼真的视频生成 ：从单张输入图像和音频样本生成讲话和生动移动的逼真人类视频。 全身动作合成 ：不仅生成头部运动、注视和嘴唇运动，还包括上身和手势动作，推进音频驱动合成技术。 不依赖特定人物训练 ：与先前方法不同，VLOGGER不需要针对每个人进行训练，使其应用更广泛。 高级控制 ：支持通过高级人脸和身体表征轻松控制的高质量、可变长度视频生成。 广泛场景适应性 ：考虑了广泛的场景，如可见的躯干或多样的主体身份，确保合成视频的真实性和多样性。 除此之外，VLOGGER还可以编辑现有视频，例如通过改变主题的表情，或者调整嘴巴和眼睛的闭合状态。在视频翻译方面，VLOGGER可以取一个特定语言的现有视频，并编辑唇部和面部区域以适应新的音频，例如西班牙语。 VLOGGER的工作原理 VLOGGER通过以下两个关键技术实现其功能： 1、随机人类到3D运动的扩散模型 ：这一部分负责基于输入音频生成中间的身体动作控制信号，包括目光方向、面部表情、姿态等，为视频的每一帧提供动作基础。 第一阶段是一个网络，它接受音频波形作为输入，生成中间的身体动作控制信号。这些控制信号负责目标视频长度内的目光方向、面部表情和姿态等动作。 这一步骤通过模拟人类的自然动作反应来实现，例如根据说话内容和音调改变面部表情或头部姿势，从而创建一个更加生动、真实的视频表现。 2、基于扩散的新型架构 ：增强了将文本和音频转换为图像的模型，通过添加空间和时间控制来支持视频帧的生成。这个架构使得根据预测的身体控制信号生成相应的视频帧成为可能，并通过使用参考图像来确保生成的视频在身份上与原始人物一致。 第二阶段是一个时间图像到图像转换模型，它扩展了大型图像扩散模型。这个模型利用预测的身体控制信号生成相应的帧。 为了将生成过程定制到特定的身份，网络还接受人的一张参考图像。这样做是为了确保生成的视频不仅在动作上真实，而且在外观上也与原始人物保持一致性。 在视频翻译方面，VLOGGER可以取一个特定语言的现有视频，并编辑唇部和面部区域以适应新的音频，例如西班牙语。 [video width="1214" height="1080" mp4="https://img.xiaohu.ai/2024/03/3月14日-2.mp4"][/video] VLOGGER还可以编辑现有视频，例如通过改变主题的表情，或者调整嘴巴和眼睛的闭合状态。 [video width="3032" height="1080" mp4="https://img.xiaohu.ai/2024/03/3月14日-21.mp4"][/video]

Menu

分类目录

VLOGGER：基于文本和音频驱动，从单张照片生成会说话的人类视频

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

Anthropic 公布了一种全新的 AI 越狱技术可以轻松破解所有前沿模型

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

Recommendeds

BlenderAlchemy：集成GPT-4V 通过聊天形式来进行3D图形编辑

和 GPT 4o 匹敌世界上最快的语音机器实现500毫秒的语音到语音响应

Ferret-UI：苹果开发出能“看懂”手机屏幕上并能执行任务的多模态模型

ElevenLabs 推出 Audio Native 自动将你的内容转换为播客

英伟达发布全新Blackwell GPU计算平台开启新工业革命

百川智能发布 Baichuan 4模型及首款AI智能助手“百小应” 可联网搜索

MobiLlama：一个0.5B大小能在手机上运行的小型语言模型

Higgsfield AI：仅需一张照片生成逼真可控制的视频

教程：使用 IC 灯光变换器重新照亮您的视频随意更换视频背景和光照

OpenAI 推出 SearchGPT 将 AI 与实时网络信息结合提供生成式UI结果

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Menu

分类目录

VLOGGER：基于文本和音频驱动，从单张照片生成会说话的人类视频

Support authors and subscribe to content

加入会员

Related Posts

Recommendeds

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?