Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

AnchorCrafter:自动生成具有主播风格的产品宣传视频 解决了人-物交互控制

by 小互
2024年12月1日
in AI 项目
0 0
0
AnchorCrafter:自动生成具有主播风格的产品宣传视频 解决了人-物交互控制
0
SHARES
599
VIEWS
Share on FacebookShare on Twitter

AnchorCrafter 是一个基于扩散模型的视频生成系统,专注于自动生成具有主播风格的产品宣传视频。该系统通过引入“人-物交互(HOI)”技术,在现有的人体姿态视频生成技术基础上,解决了生成过程中物体外观细节捕捉和人-物交互控制的挑战。

它可以用来制作那种“电商主播带货”风格的视频,比如你在淘宝、抖音或者YouTube上看到的那些主播介绍产品的短视频。

  • 人和物体的互动视频生成
    • 比如一个人拿着某个商品(手机、化妆品等)做动作,AnchorCrafter 可以自动生成这样的互动视频。
  • 高清还原商品细节
    • 无论商品是从什么角度拍摄的,它都能精准捕捉商品的外观、纹理和细节。
  • 控制商品的运动轨迹
    • 可以让商品“飞”起来或者与人物互动,比如抛接、摆放等动作。
它是用来干嘛的?

AnchorCrafter 的核心功能是:

  1. 让普通人的照片变成主播视频:比如你有一张自己的照片,它可以自动生成一个视频,让你“亲自”介绍产品,做出带货动作。
  2. 支持人和产品的互动:不像其他工具只能让人站着或摆姿势,这个系统会让“你”自然地拿起产品、展示、互动,比如拿着一部手机转一圈、或者把杯子递给“镜头”。
  3. 保持画面真实感:生成的视频不但人像逼真,产品的外观、细节和动作也非常真实,不会模糊或变形。
结果1
它解决了什么问题?

以前的AI生成视频工具,主要有以下问题:

  • 人和物体不能互动:产品像是贴在屏幕上的图片,完全不“动”。
  • 细节不真实:比如手拿着东西时,手和物体会“粘”在一起,看起来很假。
  • 动作呆板:很难生成自然的动作,比如递物体或者展示细节。
结果2

AnchorCrafter 通过加入“人-物互动”的技术,让视频里的主播能自然地拿起、展示甚至旋转产品,还能精确控制产品的动作轨迹和角度,看起来就像真人拍摄的一样。

结果3

技术方法

1. 视频扩散模型
  • 基本框架:AnchorCrafter 基于视频扩散模型,通过逐步去噪的方式生成高质量、时间一致的动作视频。
  • 组件:
    • UNet:用于处理视频特征,加入时间层以实现时序一致性。
    • VAE(变分自编码器):负责对视频帧进行编码和解码,降低计算复杂度。
  • 过程:输入一个视频的噪声序列,模型逐步去噪恢复出具有明确人-物交互的视频内容。


2. 人-物外观感知模块 (HOI-Appearance Perception)

目标:提升人和物体的外观细节,同时解耦二者的特征,避免混淆。

  1. 多视角物体特征融合:
    • 输入多个视角(正面、45°左、45°右)物体图像。
    • 使用预训练模型(如DINOv2)提取每个视角的特征。
    • 通过自注意力机制融合多视角特征,生成物体的3D一致性特征。
  2. 人-物双适配模块:
    • 在扩散模型的每一层加入两个独立的交叉注意力模块:
      • 一个处理人类特征(用CLIP提取)。
      • 一个处理物体特征(用融合后的多视角特征)。
    • 避免人和物体的特征出现“融合”或“模糊”的问题。

3. 人-物动作注入模块 (HOI-Motion Injection)

目标:生成自然且可控的人与物体交互动作。

  1. 物体轨迹控制:
    • 使用深度图(Depth Map)表示物体在3D空间中的位置和运动轨迹。
    • 通过卷积网络处理深度图,将物体轨迹特征注入扩散模型。
  2. 遮挡处理:
    • 提取手部的3D网格(Hand Mesh),捕捉手指的具体动作。
    • 当手和物体发生遮挡时,屏蔽被遮挡的部分,确保生成的手和物体相互不干扰。
  3. 动作校准:
    • 通过姿态相似性矩阵,调整输入姿态序列和参考人像之间的空间位置差异,避免因姿态差异导致视频失真。
4.HOI-区域加权损失(HOI-Region Reweighting Loss)
  • 功能:
    • 在生成过程中对商品区域进行重点优化,提升商品细节的还原效果。
  • 实现方法:
    • 在训练时,通过加权损失函数,让模型对商品的细节(如边缘、纹理)给予更多关注。

实验结果

  1. 视频生成质量领先:
    • AnchorCrafter 在视频质量指标(FID-VID)中大幅领先其他方法,生成的视频更加清晰流畅。
    • 在物体动作的准确性(Object-IoU)和外观清晰度(Object-CLIP Score)方面,AnchorCrafter 的得分远高于现有方法,表明它在物体外观细节和运动轨迹控制上表现最佳。

      对比-1
  2. 用户评价高度认可:
    • 用户测试结果表明,AnchorCrafter 在人物和物体外观保持、动作自然性,以及视频整体质量上均获得最高评分,尤其在物体与手部交互细节方面表现突出。
  3. 模块的重要性验证:
    • 消融实验显示,多视角特征融合、手部3D网格、以及区域重加权损失模块对生成质量至关重要,缺少任何模块都会导致物体外观模糊或交互不自然。
  4. 超越现有方法:
    • 与 AnimateAnyone、MimicMotion 等方法相比,AnchorCrafter 在所有指标上均有显著提升,特别是在人-物交互动作的真实感和一致性上表现卓越。

  5. Support authors and subscribe to content

    This is premium stuff. Subscribe to read the entire article.

    Login if you have purchased

    加入会员

    加入会员查看更多会员内容和教程。
    超过1000+的会员内容,每天更新。
    开通会员

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
476
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
331
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
444
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
276
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
607
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
423

Recommendeds

OpenAI 推出 GPT-4o mini 取代GPT 3.5   性能超越GPT 4  而且更快更便宜

OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快更便宜

385 VIEWS
2024年7月19日
RoboflowSports :跟踪检测和识别运动员行为 提供比赛实时分析

RoboflowSports :跟踪检测和识别运动员行为 提供比赛实时分析

400 VIEWS
2024年7月25日
Magentic-One:微软发布用于解决复杂任务通用多智能体 可自行编写和执行代码并进行人机交互

Magentic-One:微软发布用于解决复杂任务通用多智能体 可自行编写和执行代码并进行人机交互

249 VIEWS
2024年11月9日
生数科技发布可生成最长 16 秒、1080P 视频的类Sora模型:Vidu

Vidu:发布技术报告 披露技术细节 首个国产媲美Sora的视频生成模型

599 VIEWS
2024年5月9日
AnimateDiff-Lightning:快如闪电的视频生成模型 速度提升十倍

AnimateDiff-Lightning:快如闪电的视频生成模型 速度提升十倍

42 VIEWS
2024年3月20日
SLD:图像生成模型自动校正技术 能编辑和修复各类模型生成的图像

SLD:图像生成模型自动校正技术 能编辑和修复各类模型生成的图像

24 VIEWS
2024年3月11日
Claude推出了自己的类似GPTs 聊天机器人功能:Projects 但是有所不同

Claude推出了自己的类似GPTs 聊天机器人功能:Projects 但是有所不同

822 VIEWS
2024年6月26日
MotionFollower:将一个视频中的人物动作转移到另一个视频中的人物身上

MotionFollower:将一个视频中的人物动作转移到另一个视频中的人物身上

448 VIEWS
2024年6月9日
实时打字翻译工具 支持中英文等多种语言的文字和语音实时翻译

实时打字翻译工具 支持中英文等多种语言的文字和语音实时翻译

318 VIEWS
2024年7月29日
Higgsfield AI:仅需一张照片生成逼真可控制的视频

Higgsfield AI:仅需一张照片生成逼真可控制的视频

364 VIEWS
2024年4月6日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版