Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

根据单张图像和音频输入生成唱歌和说话视频,并能控制人物表情和姿态

by 小互
2024年6月17日
in AI 项目
0 0
0
根据单张图像和音频输入生成唱歌和说话视频,并能控制人物表情和姿态
0
SHARES
263
VIEWS
Share on FacebookShare on Twitter

通过语音音频输入来驱动肖像图像生成动画视频,也就是一段语音+个人图像生成会说话唱歌的视频。

研究团队提出了一种创新的基于扩散模型的层次化音频驱动视觉合成方法。这个方法的目的是提高语音输入与生成的动画之间的对齐精度,包括嘴唇、表情和姿态的同步。

  • 通过输入语音,生成对应的人物嘴唇同步、表情变化和姿态变化的动画。
  • 提高语音与生成动画之间的对齐精度,使动画的嘴唇、表情和姿态与语音更匹配。
  • 采用先进的技术和结构,增强了动画生成的实时性和视觉效果,使生成的动画更加逼真和自然。
339966827-294e78ef-c60d-4c32-8e3c-7f8d6934c6bd

主要功能

  1. 虚拟角色动画生成
    • 通过语音音频输入生成逼真、动态的虚拟角色动画。
    • 实现了虚拟角色的口型、表情和姿态的精确同步。.
      4
      3 (3)
      1 (4)

      6 (1)
  2. 真实角色动画生成
    • 应用于真实人物的语音驱动动画生成。
    • 生成的动画能准确反映真实人物的表情和动作变化。
      2 (3)

      1 (3)
  3. 多种运动控制
    • 提供对角色表情、姿态和嘴唇运动的精确控制。
    • 支持多种表情和姿态的自适应控制,增强动画的多样性和真实性。
      .
      pose_1

      pose_2

  4. Support authors and subscribe to content

    This is premium stuff. Subscribe to read the entire article.

    Login if you have purchased

    加入会员

    加入会员查看更多会员内容和教程。
    超过1000+的会员内容,每天更新。
    开通会员

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
482
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
336
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
448
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
614
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

Dynamic Typography :“动态排版”技术 可以让文字变成动画

Dynamic Typography :“动态排版”技术 可以让文字变成动画

174 VIEWS
2024年4月20日
Hebbia获得近1亿美元B轮融资  利用AI一次可以处理多达数百万份文档

Hebbia获得近1亿美元B轮融资 利用AI一次可以处理多达数百万份文档

294 VIEWS
2024年7月28日
基于大语言模型的知识库问答系统 支持自动爬取在线文档 兼容多个大模型

基于大语言模型的知识库问答系统 支持自动爬取在线文档 兼容多个大模型

537 VIEWS
2024年6月15日
Reka Core:和GPT 4性能不相上下的多模态语言模型

Reka Core:和GPT 4性能不相上下的多模态语言模型

366 VIEWS
2024年4月17日
Meta AI 推出新一代SAM 2 可实时在图像或视频中识别出特定对象并进行跟踪

Meta AI 推出新一代SAM 2 可实时在图像或视频中识别出特定对象并进行跟踪

510 VIEWS
2024年7月30日
Danswer:可以与自己的企业内部知识库、文档和人员连接的AI工具

Danswer:可以与自己的企业内部知识库、文档和人员连接的AI工具

288 VIEWS
2024年5月8日
亚马逊推出了一款人工智能购物助手:Rufus 帮助用户进行购物决策

亚马逊推出了一款人工智能购物助手:Rufus 帮助用户进行购物决策

398 VIEWS
2024年7月14日
摩根大通人工智能研究部推出FlowMind 自动化金融工作流程

摩根大通人工智能研究部推出FlowMind 自动化金融工作流程

315 VIEWS
2024年4月29日
如何使用Midjourney v6 创建自己的服装品牌

如何使用Midjourney v6 创建自己的服装品牌

114 VIEWS
2024年3月7日
Prompt 学习地图 22 | 内容误区 – 提示词误导

Prompt 学习地图 22 | 内容误区 – 提示词误导

109 VIEWS
2024年5月3日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版