MIMO：给定一个参考图像、视频几分钟即可生成一个可以控制动作和场景的动画人物

MIMO是一个生成虚拟角色动画的工具。它能够让用户通过一张图片和简单的动作信息（如图片、动作序列或视频），生成一个可以控制动作和场景的动画人物，而且这个人物可以与场景中的物体进行互动。

即给定一个参考图像，MIMO能够通过几分钟的推理生成可动画的虚拟形象。

视频播放器

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/09/teaser_ref_actorhq.mp4

00:00

该项目由阿里巴巴集团智能计算研究院开发。MIMO项目的核心目的是通过用户提供的简单输入（如图片、动作序列或视频）来生成具有控制性的角色视频。这意味着，用户可以通过一个参考图像（比如某个人物的照片），结合动作序列或场景描述，生成一个能够进行动画的虚拟角色，并且这个角色可以表现出用户定义的动作和场景互动。

视频播放器

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/09/teaser_scene2.mp4

00:00

使用上/下箭头键来增高或降低音量。

该模型突破了传统3D角色视频生成方法的局限，不需要多视角拍摄或针对每个角色单独训练。通过结合2D视频信息和3D空间建模，MIMO 可以高效地生成角色动画，并支持在真实世界的复杂场景中与物体进行交互。

MIMO 的核心优势在于它可以根据用户的需求自由控制动画中的角色、动作和场景，适应不同的应用场景，如虚拟人动画、电影特效、游戏角色等。

视频播放器

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/09/teaser_scene11.mp4

00:00

使用上/下箭头键来增高或降低音量。

MIMO 的主要功能

任意角色动画生成：
- MIMO 允许用户通过提供单张图像来生成可动画的角色。无论是人类、卡通角色，还是拟人化的角色，MIMO 都能够从一张图像中提取角色的特征，并生成相应的动画。
- 这意味着你只需提供一个参考图像，MIMO 就可以快速推断并生成这个角色的动画，适用于各种虚拟场景。

视频播放器

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/09/demo_charac_single_2dvid_luffy.mp4

00:00

使用上/下箭头键来增高或降低音量。

视频播放器

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/09/demo_charac_single_2dvid_ballman.mp4

00:00

使用上/下箭头键来增高或降低音量。

视频播放器

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/09/demo_charac_single_2dvid_avatar.mp4

00:00

使用上/下箭头键来增高或降低音量。

视频播放器

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/09/demo_charac_single_syn_zuozhu.mp4

00:00

使用上/下箭头键来增高或降低音量。

复杂动作控制：
- MIMO 能够根据用户提供的动作序列生成角色的动态表现。通过将动作解码成结构化的空间代码，MIMO 可以模拟复杂的3D动作。
- 例如，MIMO 可以从现实世界中的视频中提取复杂的动作序列，并将其应用到虚拟角色上，无需传统3D方法中复杂的多视角拍摄。
- 此外，MIMO 还可以生成数据库中存储的三维空间动作，实现丰富的运动控制。

视频播放器

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/09/demo_motion_parkour.mp4

00:00

使用上/下箭头键来增高或降低音量。

视频播放器

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/09/demo_motion_breakdancing.mp4

00:00

使用上/下箭头键来增高或降低音量。

视频播放器

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/09/demo_motion_skating.mp4

00:00

使用上/下箭头键来增高或降低音量。

场景互动和遮挡处理：
- MIMO 不仅能够控制角色的动作，还能处理角色与场景中的物体互动。通过分解视频中的空间信息，MIMO 识别主角、背景和遮挡物等不同层次的信息，并相应地编码。
- 这种分层的空间建模方式使得角色可以在复杂的真实场景中与物体进行互动，处理遮挡、景深等效果，确保生成的动画更具真实感。
  视频播放器
  Media error: Format(s) not supported or source(s) not found
  下载文件: https://img.xiaohu.ai/2024/09/demo_scene_cross.mp4
  00:00
  00:00
  00:00
  使用上/下箭头键来增高或降低音量。
  
  视频播放器
  Media error: Format(s) not supported or source(s) not found
  下载文件: https://img.xiaohu.ai/2024/09/demo_scene_nba1.mp4
  00:00
  00:00
  00:00
  使用上/下箭头键来增高或降低音量。
  
  视频播放器
  Media error: Format(s) not supported or source(s) not found
  下载文件: https://img.xiaohu.ai/2024/09/demo_scene_nba.mp4
  00:00
  00:00
  00:00
  使用上/下箭头键来增高或降低音量。
  
  视频播放器
  Media error: Format(s) not supported or source(s) not found
  下载文件: https://img.xiaohu.ai/2024/09/demo_scene_basketball.mp4
  00:00
  00:00
  00:00
  使用上/下箭头键来增高或降低音量。
用户自定义控制：
- 用户可以灵活输入不同的控制元素，如单张角色图像、动作序列或者背景视频/图片，来实现动画中的不同控制。MIMO 可以将这些控制输入嵌入到模型的潜在空间中，灵活生成目标动画。
- 这种自由组合的控制方式使得用户可以轻松生成具有特定动作、场景和角色的动画，满足不同的创作需求。
3D-aware 合成：
- MIMO 采用了一种将2D视频内容提升为3D的空间编码技术，能够在保持高效计算的前提下，处理复杂的3D动作和场景。
- 这种空间感知的合成方式使得生成的动画在姿势表现和场景交互上更加自然流畅。

视频播放器

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/09/demo_motion_AerialEvade.mp4

00:00

使用上/下箭头键来增高或降低音量。

视频播放器

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/09/demo_motion_Esquiva2.mp4

00:00

使用上/下箭头键来增高或降低音量。

视频播放器

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/09/demo_motion_StartClimbingLadder.mp4

00:00

使用上/下箭头键来增高或降低音量。

技术方法：

核心思想：用户可以输入多个不同的内容（例如：用于角色的单张图像、用于动作的姿态序列，以及用于场景的单个视频/图像），以分别提供所需的属性，或者直接输入驱动视频作为输入。该模型可以将目标属性嵌入到潜在空间中，以构建目标编码，并通过空间感知分解来对驱动视频进行编码为空间编码，从而实现对合成的直观属�