Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

Hallo 2:根据单张图像和音频输入能够生成长达一小时的4K分辨率人像视频

by 小互
2024年10月18日
in AI 项目
1 0
0
Hallo 2:根据单张图像和音频输入能够生成长达一小时的4K分辨率人像视频
0
SHARES
405
VIEWS
Share on FacebookShare on Twitter

根据单张图像和音频输入生成唱歌和说话视频,并能控制人物表情和姿态的模型 Hallo 发布了更新版本Hallo 2.

Hallo2 解决了长时、高分辨率的视频生成问题。它在现有的短时视频生成模型(如 Hallo)基础上进行了多项重要改进,能够生成长达一小时的4K分辨率人像视频,适用于各种人像表情和风格控制。

  • 生成视频时长:最多支持生成 1小时 的连续人像视频,且保持视觉一致性。
  • 分辨率支持:最高支持 4K分辨率 视频输出,生成的人像动画在细节和清晰度方面表现出色。
  • 表情和风格控制:通过语音和文本标签的结合,生成的内容表现出高水平的可控性,能够根据不同输入生成情感丰富的多样化内容。
  • 视觉一致性与时间连贯性:实验表明,Hallo2 通过补丁丢弃和噪声增强技术,在生成长时视频时极大程度上减少了表情抖动和外观漂移等问题。

Hallo2 是目前首个实现长达一小时、4K分辨率的音频驱动人像动画生成模型。通过创新的补丁丢弃、噪声增强和时间对齐等技术,它解决了长时视频生成中的外观漂移和视觉不一致问题,支持灵活的语音与文本控制,生成质量达到业内领先水平。

主要技术改进与功能

  1. 长时视频生成
    • 传统的视频生成方法通常只适用于短时视频(几秒到几分钟),而长时生成会面临外观漂移(即生成的视频中的人物形象与开始不一致)和时间一致性丧失(如表情不连贯或抖动等)的问题。
    • Hallo2 通过创新的条件运动帧增强策略解决了这些问题。具体来说,模型引入了补丁丢弃技术(patch-drop technique),结合高斯噪声增强,来保证视频在长时间生成中的视觉一致性和时间连贯性。

      JohnKasich
  2. 高分辨率视频生成
    • 生成高清画面也是一个重大挑战,尤其是在4K分辨率下,细节和清晰度要求很高。为了解决这个问题,Hallo2 对潜在空间中的编码进行了矢量量化(vector quantization),同时使用时间对齐技术,确保视频在时间维度上保持一致。
    • 最终,Hallo2 能够生成高达4K分辨率的高质量人像视频,细节和清晰度得到了显著提升。
      HiRes1

      HiRes2
  3. 多样化的风格控制与表情生成
    • 在传统的音频驱动之外,Hallo2 增加了语义文本标签作为条件输入。这意味着用户不仅可以通过音频控制视频中的人物表情,还可以通过文本输入控制人物的风格和情感表现。
    • 这一功能使得生成的内容更具多样性,能够根据不同的音频和文本提示生成不同风格的人像视频。例如,你可以生成开心、愤怒、忧郁等不同情感下的人像动画。

      0 (3)
  4. 视觉一致性与时间连贯性
    • 在长时视频生成中,保持人物外观和表情的一致性是一大挑战。为此,Hallo2 引入了补丁丢弃和高斯噪声增强的技术,增强了视觉的一致性。通过这些增强技术,模型能够在时间轴上保持较高的连贯性,避免了人物在视频中的不自然变化或突兀过渡。
    • 这种技术还确保了视频在长时间播放过程中不会出现视觉上的不连贯现象。

技术方法

1. 长时动画生成

问题:长时间生成视频时,常会出现外观漂移(即随着时间推移,生成的视频中人物的外观与最初的参考图像逐渐不同)以及时间一致性问题(即动作不连贯、抖动等现象)。

解决方案:

  • 补丁丢弃技术(Patch Drop Technique):该技术通过随机丢弃之前生成的视频帧中的部分外观信息,仅保留与运动相关的动态信息。这种方式确保模型主要依赖参考图像的外观特征,减少了前后帧之间外观信息的干扰,从而保持视觉一致性。
    • 每个帧被划分为多个不重叠的补丁,随机丢弃部分补丁以减弱外观信息的影响,保留与运动相关的空间结构。
  • 高斯噪声增强:在生成的运动帧中引入高斯噪声,增强模型恢复原始外观和动态的能力,防止噪声和失真随时间累积。这一过程有助于保持长时间视频的视觉一致性。
2. 高分辨率增强(4K分辨率)

问题:在生成高分辨率视频时,生成的每一帧需要保持细节,同时跨时间轴保持一致性。

解决方案:

  • 向量量化与时间对齐技术:Hallo2 通过向量量化生成视频帧的离散编码,并引入了时间对齐机制,确保不同帧之间在时间维度上的连贯性。具体做法包括:
    • 空间自注意力(Spatial Self-Attention):确保每一帧的视觉细节通过查询、键和值的计算得到一致的处理,保持帧内的细节一致性。
    • 时间对齐注意力(Temporal Alignment Attention):通过时间维度上的注意力机制,确保不同时间点的帧在运动和外观上保持连贯。
3. 文本标签控制

特点:为了增强生成动画的多样性和控制性,Hallo2 支持通过文本标签控制人物的表情、动作等细节。这一功能使得生成的内容可以根据用户输入的文本进行微调,例如生成不同情感或风格的动画。

具体做法:

  • 语义文本标签:模型通过 CLIP 编码获取文本的语义信息,并通过可调的层归一化机制,将文本信息与图像生成过程结合。通过这种方式,文本标签可以直接影响生成图像的表情和姿态变化。
4. 网络架构与训练策略

网络架构:

  • Denoising U-Net:用于去噪的U-Net架构是该模型的核心,处理每个时刻的噪声潜在向量。通过跨注意力层和音频、文本的结合,生成与音频同步、表情生动的动画帧。

训练策略:

  • 两阶段训练:第一阶段模型生成视频帧,第二阶段引入补丁丢弃和高斯噪声增强技术,进一步训练模型生成长时视频的能力。
    • 第一阶段重点训练空间交叉注意力模块,以提升模型生成能力。
    • 第二阶段则重点处理时间一致性问题,通过运动帧的噪声增强和文本标签的引入,实现高质量的长时动画生成。
5. 数据增强与消融实验

数据增强:

  • 补丁丢弃与高斯噪声增强:这两种增强策略结合使用,显著提升了生成视频的视觉一致性和表情连贯性。

消融实验:

  • 实验结果表明,单独使用补丁丢弃或高斯噪声增强都能改善生成质量,但两者结合使用时效果最佳,能够显著降低FVD(视频视觉质量)和FID(图像视觉质量)等指标。

项目地址及更多演示:https://fudan-generative-vision.github.io/hallo2

  • 论文:arXiv 论文
  • 代码:GitHub 源代码
  • 演示视频:HuggingFace

Hallo 1 介绍

根据单张图像和音频输入生成唱歌和说话视频,并能控制人物表情和姿态

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

Resona V2A :利用AI解读理解视频 自动为视频进行配音配乐

Resona V2A :利用AI解读理解视频 自动为视频进行配音配乐

447 VIEWS
2024年6月30日
一站式AI最新研究更新、面试资源、免费课程等综合库

一站式AI最新研究更新、面试资源、免费课程等综合库

165 VIEWS
2024年3月28日
OpenAI 衍生公司人工智能模型,让机器人像人类一样学习任务

OpenAI 衍生公司人工智能模型,让机器人像人类一样学习任务

51 VIEWS
2024年3月19日
在分析了 500 万个自由职业岗位后发现 这些工作最可能被 AI 替代

在分析了 500 万个自由职业岗位后发现 这些工作最可能被 AI 替代

337 VIEWS
2024年6月22日
OpenAI CTO Mira Murati 母校访谈实录 博士级别的人工智能有望在一年半的时间内发布

OpenAI CTO Mira Murati 母校访谈实录 博士级别的人工智能有望在一年半的时间内发布

97 VIEWS
2024年6月22日
Florence-2:微软全新开源视觉模型 能够执行超过10种不同的视觉任务

Florence-2:微软全新开源视觉模型 能够执行超过10种不同的视觉任务

447 VIEWS
2024年6月21日
Cloudflare 推出对抗 AI 机器人的工具 可一键阻止所有 AI 机器人、抓取工具和爬虫

Cloudflare 推出对抗 AI 机器人的工具 可一键阻止所有 AI 机器人、抓取工具和爬虫

240 VIEWS
2024年7月29日
MidJourney 发布了一个在线创作工具:Patchwork 一句话创造一个完整的故事世界图像

MidJourney 发布了一个在线创作工具:Patchwork 一句话创造一个完整的故事世界图像

556 VIEWS
2024年12月15日
Multimodal ArXiv:用于改善大型视觉-语言模型科学理解的数据集

Multimodal ArXiv:用于改善大型视觉-语言模型科学理解的数据集

63 VIEWS
2024年3月4日
SceneScript :让 AR 和人工智能设备了解物理空间的几何形状

SceneScript :让 AR 和人工智能设备了解物理空间的几何形状

85 VIEWS
2024年4月13日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版