Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

X-Portrait 2:由字节跳动开发 可将任意视频角色的表情和动作转移到任意对象的技术

by 小互
2024年11月7日
in XiaoHu.AI日报
0 0
0
X-Portrait 2:由字节跳动开发 可将任意视频角色的表情和动作转移到任意对象的技术
0
SHARES
612
VIEWS
Share on FacebookShare on Twitter

上周Runway 推出了一款生成式角色表演工具,可以把视频转换成任意风格虚拟角色动画,并且保持表情语音口型同步。只需要用摄像头录下演员的表演,Act-One 就能把视频转换成虚拟角色的动画,比如演员的眼神、面部表情、动作节奏和说话方式都会被捕捉下来。

本周字节跳动的人找到我,说他们也有一款类似的产品在内测,比Runway 的Act-One 的效果还要好,让我测试看看。

真是不测不知道,一测吓一跳。字节果然是好东西很多,但是都藏起啦了。

这个工具内部目前还没有正式产品名称,内部称为X-Portrait 2。看着名字就知道研究了一段时间了,都2代了。

nemo_teaser

X-Portrait 2 是一款基于深度学习的高效人像动画生成工具。用户只需提供一张静态的肖像图和一个带有表情和动作的“驱动视频”,X-Portrait 2 就可以将视频中的表情和动作迁移到静态图像上,生成自然流畅、充满表现力的动画。

它不仅可以将视频中人物的动作表情转移到目标图像中,还能捕捉并还原极其细微的面部表情变化,比如嘟嘴、鼓腮、皱眉等,让转移生成的动画不仅流畅,还能传达出丰富的情绪。

不多说,先上几个我测试的案例看看。

X-Portrait 2 可以精确捕捉并传递快速头部运动、甚至可以还原出视频中人物的细微表情变化和情绪转变。让生成的动画显得更加真实生动。

金馆长
洪世贤
周处2眼镜老人

向佐也有了演技

周星驰+向左2
向左吐口水

模型适应性极强,能够在不同风格(如真实肖像和卡通图像)之间实现跨风格的表情迁移。

周处小丑

既适用于真人肖像,也适合卡通、漫画角色等虚拟形象

周处2熊猫
周星驰

以往这种都需要演员穿戴动作捕捉装备或者通过摄像头动作捕捉技术才能完成,现在只需要简单的图片和视频使用提示词即可控制。

面孔”和“表情”分离:只变表情,不变脸

为了让照片在动的时候不失去原来的样子,X-Portrait 2 采用了“面孔”和“表情”分离的方法。这个方法就像把人的长相和表情分开,只让表情改变而不动原来的五官样貌。

这种分离方法让照片在模仿视频表情时,始终保持自己本来的样子,比如不会因为表情而影响脸型。

017+EXP-3-cheeks+nose

精细动作还原:抓住每个细节

X-Portrait 2 对于细小的表情和快速的动作非常敏感。比如,一个快速的转头、嘟嘴或眉毛微微扬起,这些细节都会被模型捕捉并还原出来,生成的视频效果非常细腻。这种精细的动作还原使得它特别适合影视特效或动画制作,能够让生成的角色看起来更真实。

030+EXP-4-lips
nice_exp-crop_new_result

X-Portrait以及最近发布的 Runyway Act-One 等最先进的方法相比,X-Portrait 2能够如实表现快速的头部动作、细微的表情变化以及强烈的个人情感,这些方面对于高质量的内容创作(比如动画和电影制作)至关重要。

1196_0-300_comp
shining_comp
ytb_extreme_comp

技术创新点:

1. 高精度表情编码器:实现细微表情的真实再现
  • 捕捉细微情感变化:X-Portrait 2 的表情编码器经过大规模数据集训练,能够捕捉并还原复杂的面部细节和情感变化。例如,它可以精确再现嘟嘴、鼓腮、皱眉等微小但关键的表情,这使生成的动画不仅仅是机械地模仿表情,而是充满了个性和细腻的情感。
  • 高保真度表情迁移:该编码器在生成过程中保留了原视频的情绪和语气,让生成的表情更自然,能够准确传递情绪强度,为创作者提供了超越传统方法的动画生成体验。
    comb_realman3-crop_new_drivenby_movie_1_15fps_audio

    comb_realhat2-crop_new_drivenby_20241025-204649_audio
2. 外观与动作的强分离(Appearance and Motion Disentanglement)
  • 分离外观与表情变化:X-Portrait 2 的技术架构将图像的外观与表情动作分离,使得模型仅专注于表情和动作信息的迁移,而不改变静态肖像的外观。这种分离确保了表情生成的独立性和一致性,尤其在处理复杂的动态变化时,能够让表情迁移更加自然。
  • 支持多风格应用:外观与动作分离还意味着模型可以轻松应用于不同风格的图像。无论是现实人像还是卡通角色,X-Portrait 2 都能准确地将表情迁移到目标风格上。这种跨风格能力使得创作者能够将不同风格的图像素材整合到一个项目中,丰富了创作的表现力。
    comb_styleart2-crop_new_drivenby_147+EXP-6-tongue-1

    comb_style3DCartoon1-crop_new_drivenby_6246
3. 生成式扩散模型的创新应用
  • 多视角训练与扩散生成: 使用生成式扩散模型,在多视角数据上进行训练。这种模型能够还原表情在不同视角下的变化,使得动画生成效果更为流畅和真实。通过多视角训练,扩散模型能够确保表情动作在每个角度都自然连贯,避免了传统方法在角度变化时的不协调问题。
  • 去噪机制和一致性优化:扩散模型在生成过程中使用去噪机制,使生成的图像质量更高,减少了在表情和动作变换中产生的噪声。这种去噪处理确保了复杂表情和快速运动的清晰度,使得生成的动画更为平滑、精致。
4. 高度自适应的跨领域表情迁移能力
  • 支持跨领域应用:X-Portrait 2 的跨领域迁移能力使其适用于不同风格和领域的动画需求,能够轻松实现从现实人像到虚拟角色、漫画风格等多种样式的表情迁移。这种跨领域适应性让模型能够在创作中灵活运用,为创作者提供了更加广泛的风格选择。
  • 多种驱动输入兼容性:支持使用多种类型的驱动视频,既可以是电影镜头,也可以是动画或用户录制的视频。这种兼容性不仅提升了工具的适用性,还为创作者在驱动视频选择上提供了更大自由度,能够针对不同需求选择最适合的驱动源。
5. 真实感与动态表现力的提升
  • 真实感表现和细节捕捉:能够细致还原人物的快速头部运动、细微面部变化和情绪特征,提升了生成动画的真实感。相比传统方法,该模型在高动态表现力方面具备明显优势,使得生成的动画更加接近真实影像的效果。
  • 电影级别的动画质量: 在生成动态场景时表现出色,能够应用于高质量的电影和动画制作中。无论是细微的情感传递还是剧烈的表情变化,X-Portrait 2 都能够保持连贯的表情流畅度,为内容创作带来了电影级别的动画质量。

项目地址:https://byteaigc.github.io/X-Portrait2/

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
473
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
329
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
440
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
275
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
602
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
422

Recommendeds

Magentic-One:微软发布用于解决复杂任务通用多智能体 可自行编写和执行代码并进行人机交互

Magentic-One:微软发布用于解决复杂任务通用多智能体 可自行编写和执行代码并进行人机交互

249 VIEWS
2024年11月9日
Adobe 推出新的 Firefly Image 3 Model 模型

Adobe 推出新的 Firefly Image 3 Model 模型

126 VIEWS
2024年4月23日
装备AI瞄准步枪的机器狗 接受了美国海军陆战队特种作战评估

装备AI瞄准步枪的机器狗 接受了美国海军陆战队特种作战评估

226 VIEWS
2024年5月19日
斯坦福大学人工智能研究院发布《2024 年人工智能指数报告》

斯坦福大学人工智能研究院发布《2024 年人工智能指数报告》

547 VIEWS
2024年4月16日
英国剑桥大学开发出的AI模型 在预测阿尔茨海默症方面超过了临床测试

英国剑桥大学开发出的AI模型 在预测阿尔茨海默症方面超过了临床测试

224 VIEWS
2024年7月14日
教程:使用 Glif 利用Flux Schnell模型创建四格漫画故事板和分镜头剧本

教程:使用 Glif 利用Flux Schnell模型创建四格漫画故事板和分镜头剧本

400 VIEWS
2024年8月22日
马里兰大学开发出一种”隐形斗篷” 可以让监控无法识别到你

马里兰大学开发出一种”隐形斗篷” 可以让监控无法识别到你

1.2k VIEWS
2024年4月13日
MeloTTS: 高质量多语言文本转语音(TTS)库 支持中英混合

MeloTTS: 高质量多语言文本转语音(TTS)库 支持中英混合

225 VIEWS
2024年3月11日
不同文本转语音(TTS)模型对比 优缺点以及场景选择

不同文本转语音(TTS)模型对比 优缺点以及场景选择

635 VIEWS
2024年12月2日
微软发布了10个全新的自主AI代理 可以处理客户查询的“人工智能员工”

微软发布了10个全新的自主AI代理 可以处理客户查询的“人工智能员工”

352 VIEWS
2024年10月22日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版