Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

MIMO:给定一个参考图像 、视频 几分钟即可生成一个可以控制动作和场景的动画人物

by 小互
2024年9月25日
in AI 项目
0 0
0
0
SHARES
1.1k
VIEWS
Share on FacebookShare on Twitter

MIMO是一个生成虚拟角色动画的工具。它能够让用户通过一张图片和简单的动作信息(如图片、动作序列或视频),生成一个可以控制动作和场景的动画人物,而且这个人物可以与场景中的物体进行互动。

即给定一个参考图像,MIMO能够通过几分钟的推理生成可动画的虚拟形象。

视频播放器
teaser_ref_actorhq

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/09/teaser_ref_actorhq.mp4
00:00
00:00
00:00
使用上/下箭头键来增高或降低音量。

该项目由阿里巴巴集团智能计算研究院开发。MIMO项目的核心目的是通过用户提供的简单输入(如图片、动作序列或视频)来生成具有控制性的角色视频。这意味着,用户可以通过一个参考图像(比如某个人物的照片),结合动作序列或场景描述,生成一个能够进行动画的虚拟角色,并且这个角色可以表现出用户定义的动作和场景互动。

视频播放器
teaser_scene2

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/09/teaser_scene2.mp4
00:00
00:00
00:00
使用上/下箭头键来增高或降低音量。

该模型突破了传统3D角色视频生成方法的局限,不需要多视角拍摄或针对每个角色单独训练。通过结合2D视频信息和3D空间建模,MIMO 可以高效地生成角色动画,并支持在真实世界的复杂场景中与物体进行交互。

MIMO 的核心优势在于它可以根据用户的需求自由控制动画中的角色、动作和场景,适应不同的应用场景,如虚拟人动画、电影特效、游戏角色等。

视频播放器
teaser_scene11

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/09/teaser_scene11.mp4
00:00
00:00
00:00
使用上/下箭头键来增高或降低音量。

MIMO 的主要功能

  • 任意角色动画生成:
    • MIMO 允许用户通过提供单张图像来生成可动画的角色。无论是人类、卡通角色,还是拟人化的角色,MIMO 都能够从一张图像中提取角色的特征,并生成相应的动画。
    • 这意味着你只需提供一个参考图像,MIMO 就可以快速推断并生成这个角色的动画,适用于各种虚拟场景。
视频播放器
demo_charac_single_2dvid_luffy

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/09/demo_charac_single_2dvid_luffy.mp4
00:00
00:00
00:00
使用上/下箭头键来增高或降低音量。
视频播放器
demo_charac_single_2dvid_ballman

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/09/demo_charac_single_2dvid_ballman.mp4
00:00
00:00
00:00
使用上/下箭头键来增高或降低音量。
视频播放器
demo_charac_single_2dvid_avatar

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/09/demo_charac_single_2dvid_avatar.mp4
00:00
00:00
00:00
使用上/下箭头键来增高或降低音量。
视频播放器
demo_charac_single_syn_zuozhu

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/09/demo_charac_single_syn_zuozhu.mp4
00:00
00:00
00:00
使用上/下箭头键来增高或降低音量。
  • 复杂动作控制:
    • MIMO 能够根据用户提供的动作序列生成角色的动态表现。通过将动作解码成结构化的空间代码,MIMO 可以模拟复杂的3D动作。
    • 例如,MIMO 可以从现实世界中的视频中提取复杂的动作序列,并将其应用到虚拟角色上,无需传统3D方法中复杂的多视角拍摄。
    • 此外,MIMO 还可以生成数据库中存储的三维空间动作,实现丰富的运动控制。
视频播放器
demo_motion_parkour

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/09/demo_motion_parkour.mp4
00:00
00:00
00:00
使用上/下箭头键来增高或降低音量。
视频播放器
demo_motion_breakdancing

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/09/demo_motion_breakdancing.mp4
00:00
00:00
00:00
使用上/下箭头键来增高或降低音量。
视频播放器
demo_motion_skating

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/09/demo_motion_skating.mp4
00:00
00:00
00:00
使用上/下箭头键来增高或降低音量。
  • 场景互动和遮挡处理:
    • MIMO 不仅能够控制角色的动作,还能处理角色与场景中的物体互动。通过分解视频中的空间信息,MIMO 识别主角、背景和遮挡物等不同层次的信息,并相应地编码。
    • 这种分层的空间建模方式使得角色可以在复杂的真实场景中与物体进行互动,处理遮挡、景深等效果,确保生成的动画更具真实感。
      视频播放器
      demo_scene_cross

      Media error: Format(s) not supported or source(s) not found

      下载文件: https://img.xiaohu.ai/2024/09/demo_scene_cross.mp4
      00:00
      00:00
      00:00
      使用上/下箭头键来增高或降低音量。
      视频播放器
      demo_scene_nba1

      Media error: Format(s) not supported or source(s) not found

      下载文件: https://img.xiaohu.ai/2024/09/demo_scene_nba1.mp4
      00:00
      00:00
      00:00
      使用上/下箭头键来增高或降低音量。
      视频播放器
      demo_scene_nba

      Media error: Format(s) not supported or source(s) not found

      下载文件: https://img.xiaohu.ai/2024/09/demo_scene_nba.mp4
      00:00
      00:00
      00:00
      使用上/下箭头键来增高或降低音量。

      视频播放器
      demo_scene_basketball

      Media error: Format(s) not supported or source(s) not found

      下载文件: https://img.xiaohu.ai/2024/09/demo_scene_basketball.mp4
      00:00
      00:00
      00:00
      使用上/下箭头键来增高或降低音量。
  • 用户自定义控制:
    • 用户可以灵活输入不同的控制元素,如单张角色图像、动作序列或者背景视频/图片,来实现动画中的不同控制。MIMO 可以将这些控制输入嵌入到模型的潜在空间中,灵活生成目标动画。
    • 这种自由组合的控制方式使得用户可以轻松生成具有特定动作、场景和角色的动画,满足不同的创作需求。
  • 3D-aware 合成:
    • MIMO 采用了一种将2D视频内容提升为3D的空间编码技术,能够在保持高效计算的前提下,处理复杂的3D动作和场景。
    • 这种空间感知的合成方式使得生成的动画在姿势表现和场景交互上更加自然流畅。
视频播放器
demo_motion_AerialEvade

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/09/demo_motion_AerialEvade.mp4
00:00
00:00
00:00
使用上/下箭头键来增高或降低音量。
视频播放器
demo_motion_Esquiva2

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/09/demo_motion_Esquiva2.mp4
00:00
00:00
00:00
使用上/下箭头键来增高或降低音量。
视频播放器
demo_motion_StartClimbingLadder

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/09/demo_motion_StartClimbingLadder.mp4
00:00
00:00
00:00
使用上/下箭头键来增高或降低音量。

技术方法:

核心思想:用户可以输入多个不同的内容(例如:用于角色的单张图像、用于动作的姿态序列,以及用于场景的单个视频/图像),以分别提供所需的属性,或者直接输入驱动视频作为输入。该模型可以将目标属性嵌入到潜在空间中,以构建目标编码,并通过空间感知分解来对驱动视频进行编码为空间编码,从而实现对合成的直观属�

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Login if you have purchased

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容,每天更新。
开通会员

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
485
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
341
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
454
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
280
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
621
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
431

Recommendeds

  NVIDIA 发布一款音乐生成模型:Fugatto 可以对声音生成与转换进行精细化控制

  NVIDIA 发布一款音乐生成模型:Fugatto 可以对声音生成与转换进行精细化控制

232 VIEWS
2024年11月26日
Google  NotebookLM推出 “Audio Overview” 的功能 可以将任意文档转换成播客对话

Google NotebookLM推出 “Audio Overview” 的功能 可以将任意文档转换成播客对话

917 VIEWS
2024年9月27日
SpeechGPT2:一个端到端的语音对话语言模型 能够感知和表达情感

SpeechGPT2:一个端到端的语音对话语言模型 能够感知和表达情感

412 VIEWS
2024年7月25日
ELLA:使用LLM来增强扩散模型的语义对齐

ELLA:使用LLM来增强扩散模型的语义对齐

17 VIEWS
2024年3月11日
Google发布其开源模型Gemma 2 全新的架构设计 性能大幅提升

Google发布其开源模型Gemma 2 全新的架构设计 性能大幅提升

224 VIEWS
2024年6月28日
Dify AI推出 Workflow AI 工具 只需拖拽即可轻松构建工作流

Dify AI推出 Workflow AI 工具 只需拖拽即可轻松构建工作流

1.3k VIEWS
2024年4月9日
Relightful :自动调节人像光照条件,与任意背景的自然融合

Relightful :自动调节人像光照条件,与任意背景的自然融合

86 VIEWS
2024年3月5日
AutoPrompt :自动优化你的提示词

AutoPrompt :自动优化你的提示词

152 VIEWS
2024年2月28日
投资者要求Open AI 两年内转变为营利性企业 否则其融资将转换为债务

投资者要求Open AI 两年内转变为营利性企业 否则其融资将转换为债务

126 VIEWS
2024年9月29日
Extropic 发布一种全新的热力学计算机  利用物质随机波动驱动计算

Extropic 发布一种全新的热力学计算机 利用物质随机波动驱动计算

340 VIEWS
2024年4月28日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

- Select Visibility -

    No Result
    View All Result
    • Home
    • AI 工具
    • XiaoHu.AI 学院
      • AI 教程
      • AI 课程
    • XiaoHu.AI日报
    • 开源项目案例库
      • AI 论文
      • AI 资源
      • AI 项目
    • 加入会员
    • →社群
    • Login

    © 2024 Xiaohu.AI

    Are you sure want to unlock this post?
    Unlock left : 0
    Are you sure want to cancel subscription?
    转到手机版