Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

AnchorCrafter:自动生成具有主播风格的产品宣传视频 解决了人-物交互控制

by 小互
2024年12月1日
in AI 项目
0 0
0
AnchorCrafter:自动生成具有主播风格的产品宣传视频 解决了人-物交互控制
0
SHARES
602
VIEWS
Share on FacebookShare on Twitter

AnchorCrafter 是一个基于扩散模型的视频生成系统,专注于自动生成具有主播风格的产品宣传视频。该系统通过引入“人-物交互(HOI)”技术,在现有的人体姿态视频生成技术基础上,解决了生成过程中物体外观细节捕捉和人-物交互控制的挑战。

它可以用来制作那种“电商主播带货”风格的视频,比如你在淘宝、抖音或者YouTube上看到的那些主播介绍产品的短视频。

  • 人和物体的互动视频生成
    • 比如一个人拿着某个商品(手机、化妆品等)做动作,AnchorCrafter 可以自动生成这样的互动视频。
  • 高清还原商品细节
    • 无论商品是从什么角度拍摄的,它都能精准捕捉商品的外观、纹理和细节。
  • 控制商品的运动轨迹
    • 可以让商品“飞”起来或者与人物互动,比如抛接、摆放等动作。
它是用来干嘛的?

AnchorCrafter 的核心功能是:

  1. 让普通人的照片变成主播视频:比如你有一张自己的照片,它可以自动生成一个视频,让你“亲自”介绍产品,做出带货动作。
  2. 支持人和产品的互动:不像其他工具只能让人站着或摆姿势,这个系统会让“你”自然地拿起产品、展示、互动,比如拿着一部手机转一圈、或者把杯子递给“镜头”。
  3. 保持画面真实感:生成的视频不但人像逼真,产品的外观、细节和动作也非常真实,不会模糊或变形。
结果1
它解决了什么问题?

以前的AI生成视频工具,主要有以下问题:

  • 人和物体不能互动:产品像是贴在屏幕上的图片,完全不“动”。
  • 细节不真实:比如手拿着东西时,手和物体会“粘”在一起,看起来很假。
  • 动作呆板:很难生成自然的动作,比如递物体或者展示细节。
结果2

AnchorCrafter 通过加入“人-物互动”的技术,让视频里的主播能自然地拿起、展示甚至旋转产品,还能精确控制产品的动作轨迹和角度,看起来就像真人拍摄的一样。

结果3

技术方法

1. 视频扩散模型
  • 基本框架:AnchorCrafter 基于视频扩散模型,通过逐步去噪的方式生成高质量、时间一致的动作视频。
  • 组件:
    • UNet:用于处理视频特征,加入时间层以实现时序一致性。
    • VAE(变分自编码器):负责对视频帧进行编码和解码,降低计算复杂度。
  • 过程:输入一个视频的噪声序列,模型逐步去噪恢复出具有明确人-物交互的视频内容。


2. 人-物外观感知模块 (HOI-Appearance Perception)

目标:提升人和物体的外观细节,同时解耦二者的特征,避免混淆。

  1. 多视角物体特征融合:
    • 输入多个视角(正面、45°左、45°右)物体图像。
    • 使用预训练模型(如DINOv2)提取每个视角的特征。
    • 通过自注意力机制融合多视角特征,生成物体的3D一致性特征。
  2. 人-物双适配模块:
    • 在扩散模型的每一层加入两个独立的交叉注意力模块:
      • 一个处理人类特征(用CLIP提取)。
      • 一个处理物体特征(用融合后的多视角特征)。
    • 避免人和物体的特征出现“融合”或“模糊”的问题。

3. 人-物动作注入模块 (HOI-Motion Injection)

目标:生成自然且可控的人与物体交互动作。

  1. 物体轨迹控制:
    • 使用深度图(Depth Map)表示物体在3D空间中的位置和运动轨迹。
    • 通过卷积网络处理深度图,将物体轨迹特征注入扩散模型。
  2. 遮挡处理:
    • 提取手部的3D网格(Hand Mesh),捕捉手指的具体动作。
    • 当手和物体发生遮挡时,屏蔽被遮挡的部分,确保生成的手和物体相互不干扰。
  3. 动作校准:
    • 通过姿态相似性矩阵,调整输入姿态序列和参考人像之间的空间位置差异,避免因姿态差异导致视频失真。
4.HOI-区域加权损失(HOI-Region Reweighting Loss)
  • 功能:
    • 在生成过程中对商品区域进行重点优化,提升商品细节的还原效果。
  • 实现方法:
    • 在训练时,通过加权损失函数,让模型对商品的细节(如边缘、纹理)给予更多关注。

实验结果

  1. 视频生成质量领先:
    • AnchorCrafter 在视频质量指标(FID-VID)中大幅领先其他方法,生成的视频更加清晰流畅。
    • 在物体动作的准确性(Object-IoU)和外观清晰度(Object-CLIP Score)方面,AnchorCrafter 的得分远高于现有方法,表明它在物体外观细节和运动轨迹控制上表现最佳。

      对比-1
  2. 用户评价高度认可:
    • 用户测试结果表明,AnchorCrafter 在人物和物体外观保持、动作自然性,以及视频整体质量上均获得最高评分,尤其在物体与手部交互细节方面表现突出。
  3. 模块的重要性验证:
    • 消融实验显示,多视角特征融合、手部3D网格、以及区域重加权损失模块对生成质量至关重要,缺少任何模块都会导致物体外观模糊或交互不自然。
  4. 超越现有方法:
    • 与 AnimateAnyone、MimicMotion 等方法相比,AnchorCrafter 在所有指标上均有显著提升,特别是在人-物交互动作的真实感和一致性上表现卓越。

  5. Support authors and subscribe to content

    This is premium stuff. Subscribe to read the entire article.

    Login if you have purchased

    加入会员

    加入会员查看更多会员内容和教程。
    超过1000+的会员内容,每天更新。
    开通会员

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

OpenAI 官方发布: ChatGPT 学生写作指南 指导学生如何正确使用GPT

OpenAI 官方发布: ChatGPT 学生写作指南 指导学生如何正确使用GPT

1.1k VIEWS
2024年11月21日
微软开发出数据驱动的AI天气预测模型 能准确预报未来 30 天天气情况

微软开发出数据驱动的AI天气预测模型 能准确预报未来 30 天天气情况

322 VIEWS
2024年5月5日
Cognition 的 AI工程师 Devin 正式推出 500美金一个月

Cognition 的 AI工程师 Devin 正式推出 500美金一个月

293 VIEWS
2024年12月11日
阿里云发布Qwen 2开源模型 性能超越目前所有开源模型和国内闭源模型

阿里云发布Qwen 2开源模型 性能超越目前所有开源模型和国内闭源模型

606 VIEWS
2024年6月7日
Hand Talk: 将语音和文字翻译为手语 帮助听障人士获取信息

Hand Talk: 将语音和文字翻译为手语 帮助听障人士获取信息

453 VIEWS
2024年4月8日
Livekit推出一个开源的精准语音轮次检测模型 可精准识别用户是否说完话

Livekit推出一个开源的精准语音轮次检测模型 可精准识别用户是否说完话

205 VIEWS
2024年12月21日
MindEye2:仅需1小时训练数据就能从大脑活动中重建所见图像

MindEye2:仅需1小时训练数据就能从大脑活动中重建所见图像

44 VIEWS
2024年3月19日
英伟达 ChatRTX 增加了语音图像等多种新功能并支持新的模型

英伟达 ChatRTX 增加了语音图像等多种新功能并支持新的模型

166 VIEWS
2024年5月2日
苹果正式推出集成 Siri 和 Apple Intelligence新框架 Siri可以实时读取你屏幕信息并执行操作

苹果正式推出集成 Siri 和 Apple Intelligence新框架 Siri可以实时读取你屏幕信息并执行操作

306 VIEWS
2024年11月8日
Extropic 发布一种全新的热力学计算机  利用物质随机波动驱动计算

Extropic 发布一种全新的热力学计算机 利用物质随机波动驱动计算

340 VIEWS
2024年4月28日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版