Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

MIMO:给定一个参考图像 、视频 几分钟即可生成一个可以控制动作和场景的动画人物

by 小互
2024年9月25日
in AI 项目
0 0
0
0
SHARES
1.1k
VIEWS
Share on FacebookShare on Twitter

MIMO是一个生成虚拟角色动画的工具。它能够让用户通过一张图片和简单的动作信息(如图片、动作序列或视频),生成一个可以控制动作和场景的动画人物,而且这个人物可以与场景中的物体进行互动。

即给定一个参考图像,MIMO能够通过几分钟的推理生成可动画的虚拟形象。

teaser_ref_actorhq

该项目由阿里巴巴集团智能计算研究院开发。MIMO项目的核心目的是通过用户提供的简单输入(如图片、动作序列或视频)来生成具有控制性的角色视频。这意味着,用户可以通过一个参考图像(比如某个人物的照片),结合动作序列或场景描述,生成一个能够进行动画的虚拟角色,并且这个角色可以表现出用户定义的动作和场景互动。

teaser_scene2

该模型突破了传统3D角色视频生成方法的局限,不需要多视角拍摄或针对每个角色单独训练。通过结合2D视频信息和3D空间建模,MIMO 可以高效地生成角色动画,并支持在真实世界的复杂场景中与物体进行交互。

MIMO 的核心优势在于它可以根据用户的需求自由控制动画中的角色、动作和场景,适应不同的应用场景,如虚拟人动画、电影特效、游戏角色等。

teaser_scene11

MIMO 的主要功能

  • 任意角色动画生成:
    • MIMO 允许用户通过提供单张图像来生成可动画的角色。无论是人类、卡通角色,还是拟人化的角色,MIMO 都能够从一张图像中提取角色的特征,并生成相应的动画。
    • 这意味着你只需提供一个参考图像,MIMO 就可以快速推断并生成这个角色的动画,适用于各种虚拟场景。
demo_charac_single_2dvid_luffy
demo_charac_single_2dvid_ballman
demo_charac_single_2dvid_avatar
demo_charac_single_syn_zuozhu
  • 复杂动作控制:
    • MIMO 能够根据用户提供的动作序列生成角色的动态表现。通过将动作解码成结构化的空间代码,MIMO 可以模拟复杂的3D动作。
    • 例如,MIMO 可以从现实世界中的视频中提取复杂的动作序列,并将其应用到虚拟角色上,无需传统3D方法中复杂的多视角拍摄。
    • 此外,MIMO 还可以生成数据库中存储的三维空间动作,实现丰富的运动控制。
demo_motion_parkour
demo_motion_breakdancing
demo_motion_skating
  • 场景互动和遮挡处理:
    • MIMO 不仅能够控制角色的动作,还能处理角色与场景中的物体互动。通过分解视频中的空间信息,MIMO 识别主角、背景和遮挡物等不同层次的信息,并相应地编码。
    • 这种分层的空间建模方式使得角色可以在复杂的真实场景中与物体进行互动,处理遮挡、景深等效果,确保生成的动画更具真实感。
      demo_scene_cross
      demo_scene_nba1
      demo_scene_nba

      demo_scene_basketball
  • 用户自定义控制:
    • 用户可以灵活输入不同的控制元素,如单张角色图像、动作序列或者背景视频/图片,来实现动画中的不同控制。MIMO 可以将这些控制输入嵌入到模型的潜在空间中,灵活生成目标动画。
    • 这种自由组合的控制方式使得用户可以轻松生成具有特定动作、场景和角色的动画,满足不同的创作需求。
  • 3D-aware 合成:
    • MIMO 采用了一种将2D视频内容提升为3D的空间编码技术,能够在保持高效计算的前提下,处理复杂的3D动作和场景。
    • 这种空间感知的合成方式使得生成的动画在姿势表现和场景交互上更加自然流畅。
demo_motion_AerialEvade
demo_motion_Esquiva2
demo_motion_StartClimbingLadder

技术方法:

核心思想:用户可以输入多个不同的内容(例如:用于角色的单张图像、用于动作的姿态序列,以及用于场景的单个视频/图像),以分别提供所需的属性,或者直接输入驱动视频作为输入。该模型可以将目标属性嵌入到潜在空间中,以构建目标编码,并通过空间感知分解来对驱动视频进行编码为空间编码,从而实现对合成的直观属�

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Login if you have purchased

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容,每天更新。
开通会员

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
485
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
341
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
454
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
280
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
621
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
432

Recommendeds

Aurora:微软发布首个大气基础大模型 不到1分钟生成10天的高分辨率天气预报

Aurora:微软发布首个大气基础大模型 不到1分钟生成10天的高分辨率天气预报

122 VIEWS
2024年6月11日
Google Shopping API :抓取商品详情、评论、规格、优惠信息等

Google Shopping API :抓取商品详情、评论、规格、优惠信息等

51 VIEWS
2024年3月11日
Stability AI 推出经过指令调优的Stable Code Instruct 3B 代码编程模型

Stability AI 推出经过指令调优的Stable Code Instruct 3B 代码编程模型

49 VIEWS
2024年3月26日
ToucanTTS:支持语言种类最多的 TTS 模型 支持超过7000种语言的语音合成

ToucanTTS:支持语言种类最多的 TTS 模型 支持超过7000种语言的语音合成

545 VIEWS
2024年6月28日
NVIDIA Broadcast:利用 AI 提升音频和视频质量 能够去除噪音、替换虚拟背景

NVIDIA Broadcast:利用 AI 提升音频和视频质量 能够去除噪音、替换虚拟背景

418 VIEWS
2024年6月29日
Devin:全球首位AI软件工程师 通过了顶尖 AI 公司真实面试,并能完成真正的工作

Devin:全球首位AI软件工程师 通过了顶尖 AI 公司真实面试,并能完成真正的工作

42 VIEWS
2024年3月13日
CrayEye :利用AI实时分析智能手机摄像头捕捉到的环境 并提供问答帮助

CrayEye :利用AI实时分析智能手机摄像头捕捉到的环境 并提供问答帮助

121 VIEWS
2024年5月3日
Cloudflare推出了一个新的开发工具:Workflows 大幅简化多步骤应用的构建

Cloudflare推出了一个新的开发工具:Workflows 大幅简化多步骤应用的构建

252 VIEWS
2024年10月25日
Anthropic 发布Claude 3.5 Sonnet最新模型 与GPT 4o不相上下 可在聊天窗口运行代码

Anthropic 发布Claude 3.5 Sonnet最新模型 与GPT 4o不相上下 可在聊天窗口运行代码

580 VIEWS
2024年6月20日
ULTRAEDIT:通过多样化的图像编辑指令 轻松通过文本任意编辑图像

ULTRAEDIT:通过多样化的图像编辑指令 轻松通过文本任意编辑图像

88 VIEWS
2024年7月11日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版