Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

根据单张图像和音频输入生成唱歌和说话视频,并能控制人物表情和姿态

by 小互
2024年6月17日
in AI 项目
0 0
0
根据单张图像和音频输入生成唱歌和说话视频,并能控制人物表情和姿态
0
SHARES
263
VIEWS
Share on FacebookShare on Twitter

通过语音音频输入来驱动肖像图像生成动画视频,也就是一段语音+个人图像生成会说话唱歌的视频。

研究团队提出了一种创新的基于扩散模型的层次化音频驱动视觉合成方法。这个方法的目的是提高语音输入与生成的动画之间的对齐精度,包括嘴唇、表情和姿态的同步。

  • 通过输入语音,生成对应的人物嘴唇同步、表情变化和姿态变化的动画。
  • 提高语音与生成动画之间的对齐精度,使动画的嘴唇、表情和姿态与语音更匹配。
  • 采用先进的技术和结构,增强了动画生成的实时性和视觉效果,使生成的动画更加逼真和自然。
339966827-294e78ef-c60d-4c32-8e3c-7f8d6934c6bd

主要功能

  1. 虚拟角色动画生成
    • 通过语音音频输入生成逼真、动态的虚拟角色动画。
    • 实现了虚拟角色的口型、表情和姿态的精确同步。.
      4
      3 (3)
      1 (4)

      6 (1)
  2. 真实角色动画生成
    • 应用于真实人物的语音驱动动画生成。
    • 生成的动画能准确反映真实人物的表情和动作变化。
      2 (3)

      1 (3)
  3. 多种运动控制
    • 提供对角色表情、姿态和嘴唇运动的精确控制。
    • 支持多种表情和姿态的自适应控制,增强动画的多样性和真实性。
      .
      pose_1

      pose_2

  4. Support authors and subscribe to content

    This is premium stuff. Subscribe to read the entire article.

    Login if you have purchased

    加入会员

    加入会员查看更多会员内容和教程。
    超过1000+的会员内容,每天更新。
    开通会员

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
482
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
336
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
448
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
614
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

Anthropic 发布Claude 3.5 Sonnet最新模型 与GPT 4o不相上下 可在聊天窗口运行代码

Anthropic 发布Claude 3.5 Sonnet最新模型 与GPT 4o不相上下 可在聊天窗口运行代码

580 VIEWS
2024年6月20日
腾讯混元DiT模型 支持中英双语生成高分辨率、高质量的图像

腾讯混元DiT模型 支持中英双语生成高分辨率、高质量的图像

265 VIEWS
2024年5月15日
VLOGGER:基于文本和音频驱动,从单张照片生成会说话的人类视频

VLOGGER:基于文本和音频驱动,从单张照片生成会说话的人类视频

119 VIEWS
2024年3月14日
OpenAI 推出全新 Canvas 工具 帮助用户更好地写作和编程 “Canvas” 的系统提示词泄露

OpenAI 推出全新 Canvas 工具 帮助用户更好地写作和编程 “Canvas” 的系统提示词泄露

357 VIEWS
2024年10月4日
Responder 无人机 对接911报警系统 可70秒抵达案发现场实时监控

Responder 无人机 对接911报警系统 可70秒抵达案发现场实时监控

104 VIEWS
2024年5月26日
苹果对 Siri 进行全面改造 具有屏幕感知能力以及跨应用执行各种任务

苹果对 Siri 进行全面改造 具有屏幕感知能力以及跨应用执行各种任务

609 VIEWS
2024年6月11日
DETECT-2B :音频深度伪造检测工具 可以在只200毫秒内检测30多种语言的音频

DETECT-2B :音频深度伪造检测工具 可以在只200毫秒内检测30多种语言的音频

177 VIEWS
2024年7月18日
PIXART-Σ:利用Diffusion Transformer(DiT)直接生成4K分辨率图像

PIXART-Σ:利用Diffusion Transformer(DiT)直接生成4K分辨率图像

24 VIEWS
2024年3月11日
2024上半年《人工智能现状报告》来自750名AI行业领导者和技术人员的意见

2024上半年《人工智能现状报告》来自750名AI行业领导者和技术人员的意见

1.3k VIEWS
2024年7月3日
投资者要求Open AI 两年内转变为营利性企业 否则其融资将转换为债务

投资者要求Open AI 两年内转变为营利性企业 否则其融资将转换为债务

126 VIEWS
2024年9月29日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版