Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

PhotoMaker:利用多个输入图片创建人物ID表示 来生成一致性人物图像

by 小互
2024年7月23日
in XiaoHu.AI日报
0 0
0
PhotoMaker:利用多个输入图片创建人物ID表示 来生成一致性人物图像
0
SHARES
331
VIEWS
Share on FacebookShare on Twitter

PhotoMaker 是由腾讯 ARC 实验室和南开大学 MCG-NKU 合作开发的一种高效个性化文本到图像生成方法,主要用于生成高质量的现实感人类照片。

PhotoMaker 旨在通过堆叠 ID 嵌入来生成逼真的人像照片。可以在几秒钟内完成个性化定制,无需额外的 LoRA 训练。该方法可以根据文本提示,生成符合描述的高质量人像图片,同时保持人物身份的特征。

通俗易懂来说就是它利用多个输入图片来创建一个统一的ID嵌入表示,这些嵌入向量包含了人物的各种特征(如面部特征、发型、表情等)。然后利用这个ID表示来生成图像,从而保持人物特征的一致性。该方法不仅速度快、质量高,还可以根据文字描述生成定制化的照片。

堆叠 ID 嵌入

堆叠 ID 嵌入是指将多个同一身份(ID)的人物照片的信息叠加起来,形成一个综合的身份表示。这种方法通过以下步骤实现:

  • 输入图像获取:收集同一身份的多张照片。
  • 图像嵌入生成:通过图像编码器将这些照片转换为图像嵌入向量,每个向量代表一张照片的特征。
  • 堆叠嵌入:将这些嵌入向量叠加在一起,形成一个综合的 ID 嵌入。这些嵌入向量包含了人物的各种特征(如面部特征、发型、表情等)。
  • 融合文本描述:结合文本描述,将文本嵌入向量与堆叠 ID 嵌入进行融合,生成一个更新的文本嵌入。
  • 生成图像:将更新后的文本嵌入输入到图像生成模型中,生成符合描述的逼真图像。

举例解释

假设我们有一个名叫“李华”的人,我们收集了李华的多张照片,包括不同角度、不同表情的照片。然后我们通过以下步骤生成李华的个性化图像:

  1. 输入图像获取:收集李华的多张照片。
  2. 图像嵌入生成:将这些照片转换为嵌入向量。
  3. 堆叠嵌入:将这些嵌入向量叠加起来,形成李华的综合 ID 嵌入。
  4. 融合文本描述:输入文本描述,例如“李华戴着红色帽子在微笑”,将文本嵌入与李华的 ID 嵌入融合。
  5. 生成图像:生成一张李华戴着红色帽子在微笑的逼真照片。
  • 效率:传统方法可能需要分别处理每张照片,然后再进行很多次的调整。而这种方法只需要一次综合处理,大大节省了时间和计算资源。
  • 质量:因为综合了多张照片的特征,新生成的图像更具真实性和多样性。它不仅包含所有照片中的关键特征,还能更好地适应不同的角度和表情,使得图像看起来更自然、更逼真。

举个例子

假设你有几张朋友的照片:一张是在生日聚会上拍的,一张是在旅游时拍的,还有一张是在家庭聚会上拍的。每张照片都能提供一些朋友的独特信息。

通过堆叠这些照片的特征,PhotoMaker 可以生成一张新的照片,这张照片中的朋友不仅看起来像真实的朋友,还可能有你在描述中提到的特定特征,比如“戴着太阳镜的朋友”。这种方法不仅快速,而且生成的图像质量非常高,看起来就像是真实拍摄的一样。

通过给定照片,在给定的文字提示(即“conditioning prompts”)的指导下生成图像。

展示PhotoMaker在不同情境下生成图像的效果,通过展示不同的文字提示和对应生成的图像,让用户直观地了解系统的性能和多样化生成能力。

主要功能

  1. 个性化生成:
    • 高效生成:无需额外的模型调优过程,只需一次前向传递即可完成个性化图像生成。
    • 身份保真:能够精确保持输入人物的身份特征,即使在多样化的生成条件下。

      Jietu20240723-211922-HD
  2. 风格化生成:
    • 多种风格:在保持人物身份特征的同时,可以生成具有不同风格(如绘画风格、漫画风格等)的图像。
    • 风格转换:能够将人物从现实照片转换为各种艺术风格的图像。
      7月23日 (3)

      PhotoMaker 不仅具有生成逼真人像的能力,还可以在保留 ID 属性的同时进行风格化处理。

  3. 改变年龄或性别:
    • 年龄变化:通过修改文本提示,可以生成不同年龄段的同一人物图像。
    • 性别转换:可以实现人物性别的转换,同时保持其原有的身份特征。

  4. 身份混合:
    • 多身份融合:能够将多个不同身份的特征融合,生成一个新的综合身份。

    • 比例控制:通过控制输入图像的比例,可以调整生成图像中各个身份特征的权重。

      Support authors and subscribe to content

      This is premium stuff. Subscribe to read the entire article.

      Login if you have purchased

      加入会员

      加入会员查看更多会员内容和教程。
      超过1000+的会员内容,每天更新。
      开通会员

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

Genie:通过一张图像提示,生成一个完整的游戏交互式环境

Genie:通过一张图像提示,生成一个完整的游戏交互式环境

66 VIEWS
2024年3月4日
Humane 发布CosmOS  由人工智能驱动操作系统 专为智能设备和复杂任务设计

Humane 发布CosmOS 由人工智能驱动操作系统 专为智能设备和复杂任务设计

203 VIEWS
2024年12月5日
LobeChat:一键免费部署自己的私有聊天机器人 你能想到的功能它都有

LobeChat:一键免费部署自己的私有聊天机器人 你能想到的功能它都有

1.7k VIEWS
2024年6月24日
ULTRAEDIT:通过多样化的图像编辑指令 轻松通过文本任意编辑图像

ULTRAEDIT:通过多样化的图像编辑指令 轻松通过文本任意编辑图像

88 VIEWS
2024年7月11日
教程:只需合适的提示词 使用 ChatGPT 在 Blender 中创建3D场景

教程:只需合适的提示词 使用 ChatGPT 在 Blender 中创建3D场景

211 VIEWS
2024年6月5日
ElevenLabs 发布Turbo 2.5模型 速度提高了3倍 支持中文等32种语言

ElevenLabs 发布Turbo 2.5模型 速度提高了3倍 支持中文等32种语言

201 VIEWS
2024年7月20日
清华大学设计出用于通用人工智能光子芯片:太极芯片

清华大学设计出用于通用人工智能光子芯片:太极芯片

282 VIEWS
2024年4月15日
AI Scientist:全自动的完成科学研究并自动撰写论文  还能完成自动化同行评审

AI Scientist:全自动的完成科学研究并自动撰写论文 还能完成自动化同行评审

112 VIEWS
2024年8月14日
摩根士丹利与 OpenAI 开发的第二个生成式AI应用上线

摩根士丹利与 OpenAI 开发的第二个生成式AI应用上线

277 VIEWS
2024年7月28日
腾讯混元DiT模型 支持中英双语生成高分辨率、高质量的图像

腾讯混元DiT模型 支持中英双语生成高分辨率、高质量的图像

265 VIEWS
2024年5月15日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版