Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

字节跳动发布AI图像编辑工具:SeedEdit 无需专业图片处理技能 一句话即可实现P图

by 小互
2024年11月12日
in XiaoHu.AI日报
0 0
0
字节跳动发布AI图像编辑工具:SeedEdit 无需专业图片处理技能 一句话即可实现P图
0
SHARES
710
VIEWS
Share on FacebookShare on Twitter

SeedEdit 是一个AI图像编辑工具,由 Doubao 团队开发。它的特殊之处在于,可以根据用户输入的文字指令直接对图像进行编辑。

也就是你只需要通过简单的文字描述来修改图像,对图片进行各种复杂的修改,不需要专业的图片处理技能,不需要其他任何操作,不用再相Photoshop那样复杂的操作才能修改编辑图像。

无论是改变图像的内容、风格,还是调整光线和角度,SeedEdit 都可以实现,并保持高质量的编辑效果。

比如,用户可以输入“把图像中的房子换成城堡”,SeedEdit 就会自动识别并修改图像,替换成符合描述的效果。

twittervid.com_jerrykingpku_b29de1

SeedEdit 支持多种类型的图像编辑任务,包括:

  • 局部替换:修改图像中的某一部分,例如将图片中的某个对象替换为另一个。
  • 几何变换:如调整物体的大小、角度等。
  • 光照调整:改变光照方向或效果。
  • 风格更改:转换图像的艺术风格或色调。
  • 组合编辑:支持同时进行多种编辑任务,以实现复杂的效果。

创新亮点
  • 丰富的数据生成:生成大量多样化的编辑数据,解决了缺少训练数据的问题。
  • 双分支架构:允许图像和文本指令之间有效“沟通”,保证了编辑的精度和一致性。
  • 渐进式优化:逐步提高模型的稳定性和适应性,确保在复杂任务下也能表现优异。

SeedEdit 的核心功能

  1. 根据文字指令编辑图像:
    • SeedEdit 的核心功能在于它可以理解文字描述,然后根据这些描述去编辑图像。比如,你可以输入“让这栋房子漂浮在天空中”,SeedEdit 会自动识别你的需求,将图片中的房子调整到天空的位置,创造出奇幻的效果。
    • 这种“文字到图像编辑”的功能非常方便,因为用户不需要掌握复杂的图像处理软件和技术。
    • 常见的文本指令可以包括:
      • “把头发颜色变成金色”
      • “添加一些云在天空中”
      • “让人物微笑”
    • SeedEdit 能够精准理解这些自然语言描述,进行相应修改,这在传统的图像编辑工具中往往需要手动操作才能实现。
      Jietu20241112-143726-HD
  2. 稳定的图像重建和连续修改:
    • SeedEdit 不仅能够在初次编辑时生成高质量的图片,还可以支持多轮修改。比如,用户可以在修改完“让房子漂浮在天空中”之后,继续添加指令“改变风格为童话风”,SeedEdit 会基于之前的修改结果再做进一步调整,保持图像的稳定和美感。
    • 在每一轮优化后,SeedEdit 能够更好地理解更细微的编辑指令,例如仅调整局部颜色、改变光照方向、或添加微小物件等,而不会对其他区域产生多余的改动。
      Jietu20241112-143819-HD
  3. 精确处理各种细节修改:
    • SeedEdit 支持多种类型的编辑,涵盖从微小细节调整到大范围内容替换的各种需求,能够处理不同的修改范围:
      • 小范围修改:例如调整人物表情、改变颜色、微调物体形状。
      • 大范围替换:如修改场景背景、增添新的物体、或替换整个主题元素。
    • 例子:用户可以要求 SeedEdit “将图中的普通街道替换为樱花大道”,SeedEdit 将会自动调整树木和花朵细节,营造出新的视觉效果,而不改变原图的总体风格。
    • SeedEdit 能够处理许多常见的图像编辑任务,比如:
      • 局部替换:替换图片中的某个元素,比如把图中的兔子替换成小鹿。
      • 几何调整:调整图像中物体的大小、形状或角度,比如让人物转向一侧或改变手的位置。
      • 光线变化:调整光照的方向和强度,比如让光线从左侧照射进来。
      • 风格转换:将图像转变成不同的艺术风格,比如把现实风格变为卡通风格。
Jietu20241112-143524-HD
Jietu20241112-143631-HD

下面是我测试的一些案例:

换头术:一句话更换人物的头部,其他保持不变

改变人物表情,让他眯眼微笑

用中文提示词输入,要求它将welcome单词改为再见

它竟然自己识别出来我的意思 

然后把英文替换了

可惜的是目前还不支持中文

保持人物主体不变,更改人物的背景、服装颜色以及灯光,效果炸裂

将白天变为晚上

把图像中的特定物体替换掉,毫无违和感

SeedEdit 的工作原理

SeedEdit 的核心目标是平衡图像重构和再生成,即在保持原始图像信息的同时,灵活地根据文本指令进行修改。为此,SeedEdit 提出了一种基于渐进式对齐的框架,将预训练的文本到图像(T2I)模型转化为能够精准编辑图像的扩散模型。

SeedEdit 的整体解决方案分为三个主要步骤:

  • 构建多样化的编辑数据集:使用 T2I 模型生成丰富的图像对数据集,用于不同编辑任务的训练。
  • 因果扩散模型的双分支架构:通过自注意力机制实现图像输入与文本指令的对齐,使得编辑任务在保持图像一致性的前提下完成。
  • 迭代式微调与对齐:通过多轮优化,逐步提升模型的编辑一致性和成功率。
因果扩散模型(Causal Diffusion Model)
  • 概述:SeedEdit 的核心是一个因果自注意力扩散模型,这一模型结构允许图像编辑时使用文本指令作为条件输入,确保编辑的内容符合用户的描述。它可以根据不同的编辑需求进行细化操作。简单来说,SeedEdit 能够在不影响其他图像部分的情况下,精确地修改指定区域,确保图像质量不受影响。
  • 模型架构:模型有两个主要分支,分别处理输入图像和生成目标图像。这两个分支共享相同的参数,通过自注意力机制进行通信。
  • 工作原理:在编辑过程中,模型会生成一个中间特征层,使输入图像和文本描述之间能够进行信息交换,从而实现图像的定向修改。
  • 优势:这种设计不仅能保持图像的一致性,还能避免因添加额外参数而导致的模型复杂化,减少训练资源的消耗。

SeedEdit 实现这些效果的核心原理在于两个步骤:

  • 图像数据生成和过滤:通过大量的图像和文字数据训练模型,让 SeedEdit 学会理解“编辑”是什么意思。它可以根据不同的需求生成和挑选出高质量的数据,以便在多种编辑任务中表现出色。
  • 智能编辑架构:SeedEdit 的架构专门针对编辑任务进行了优化,这样用户的每一个指令都能被准确解析和执行。比如输入“把他闭上眼睛微笑”,SeedEdit 会先理解这个指令的含义,再定位到人脸的区域进行处理,最终生成符合描述的图像。

技术方法

1、数据生成

问题:大规模且多样的图像编辑数据集难以获取。

解决方法:

  • SeedEdit 使用一个已经训练好的文本到图像模型(T2I),生成成千上万对图像数据,其中包含编辑前和编辑后的图片。
  • 为了让数据更丰富,SeedEdit 使用不同的编辑技术来生成多种不同类型的图像对,这样一来,训练数据就能够覆盖多种编辑需求。
  • 最后,筛选出高质量的图像对,确保用于模型训练的数据足够清晰且多样。
2、因果扩散模型的双分支架构

问题:如何在编辑时保持图像的原始信息不被破坏?

解决方法:

  • SeedEdit 的模型采用了双分支结构,分别接收输入图像和文本指令。这个架构就像让模型有了“左右手”,一只手负责原始图像,另一只手负责指令,这样模型可以“同时理解”图像和指令。
  • 双分支结构还使用了“因果自注意力”技术,这意味着模型在编辑过程中可以逐步调整图像的细节,避免丢失原有信息。
  • 当没有图像输入时,SeedEdit 可以像普通的文本到图像模型一样生成新图像,这使得它能够灵活处理多种任务。
3、迭代优化

问题:模型在处理多种编辑任务时,如何保证准确性和一致性?

解决方法:

  • SeedEdit 通过多轮微调逐步提升模型的编辑能力。在每一轮优化中,模型会生成新的编辑数据,再从中挑选质量高的样本继续优化。
  • 每轮的筛选和训练帮助模型不断“积累经验”,适应更多不同的编辑需求,从而变得更加稳定和鲁棒。
  • 这个过程持续进行,直到模型的表现稳定为止。

评估结果

在 HQ-Edit 和 Emu Edit 两个数据集上的表现:

  • HQ-Edit 数据集:
    • SeedEdit (SDXL 模型):CLIP 方向得分为 0.1656,图像相似度为 0.8698,GPT 评估得分为 71.24。
    • SeedEdit(自家 T2I 模型):方向得分达 0.1766,相似度为 0.8524,GPT 评分达 78.54。
    • 对比方法:SeedEdit 的表现大幅超越了 Instruct-Pix2Pix、MagicBrush、UltraEdit 等其他方法,显示出更高的编辑准确性和一致性。
  • Emu Edit 数据集(较为复杂的真实图像编辑):
    • SeedEdit (SDXL 模型):CLIP 方向得分为 0.1162,图像相似度为 0.8025,GPT 评估得分为 66.48。
    • SeedEdit(自家 T2I 模型):方向得分为 0.1137,相似度为 0.7875,GPT 评估得分为 75.03。
    • 对比方法:虽然 SeedEdit 在真实场景图像上的表现稍逊于在合成图像上,但仍超过了大多数方法,说明其在不同类型图像上的适应能力较强。

与商业编辑工具的对比

SeedEdit 还与 DALLE3 和 Midjourney 等商业图像编辑工具进行了比较:

  • DALLE3:更符合文字提示的要求,但容易引入意外的内容改动。
  • Midjourney:在美学方面表现优异,但对文字指令的准确性稍差。
  • SeedEdit:在保持原始图像细节的同时实现了较高的指令准确性,整体上能更精确地编辑图像内容,且不易出现过多的无关修改。


优劣势
  • 优势:SeedEdit 在图像一致性和文字指令匹配方面表现优越,尤其在合成图像编辑上取得了显著优势。
  • 劣势:在真实场景图像的编辑上,SeedEdit 的表现稍逊于合成图像,但总体上仍优于大多数竞品。
  • 总体评价:SeedEdit 在多项评估指标上优于现有的其他图像编辑方法,特别是在需要精确编辑的任务中表现出色,是一种稳定、准确的图像编辑解决方案。

项目地址:https://team.doubao.com/en/special/seededit

技术报告:https://lf3-static.bytednsdoc.com/obj/eden-cn/lapzild-tss/ljhwZthlaukjlkulzlp/SeedEdit.pdf

在线演示:https://huggingface.co/spaces/ByteDance/SeedEdit-APP

  • 豆包 Web:https://www.doubao.com/chat/create-image
  • 即梦 Web:https://jimeng.jianying.com/ai-tool/image/generate

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
478
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
332
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
444
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
277
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
608
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
423

Recommendeds

Chameleon:能同时理解和生成文本与图像混合模态模型

Chameleon:能同时理解和生成文本与图像混合模态模型

200 VIEWS
2024年5月22日
使用 ChatGPT 像专业人类分析师一样 进行财务报表分析

使用 ChatGPT 像专业人类分析师一样 进行财务报表分析

800 VIEWS
2024年5月23日
Stylar:最可控的人工智能图像和设计工具 附操作教程

Stylar:最可控的人工智能图像和设计工具 附操作教程

866 VIEWS
2024年5月10日
在分析了 500 万个自由职业岗位后发现 这些工作最可能被 AI 替代

在分析了 500 万个自由职业岗位后发现 这些工作最可能被 AI 替代

337 VIEWS
2024年6月22日
Anthropic CEO :5到10年内 AI将助力人类扫除几乎所有疾病 人类寿命有望翻倍达到150岁

Anthropic CEO :5到10年内 AI将助力人类扫除几乎所有疾病 人类寿命有望翻倍达到150岁

374 VIEWS
2024年10月12日
路透社:OpenAI 正在开发代号为“Strawberry”的新模型 可自主浏览互联网并自主推理

路透社:OpenAI 正在开发代号为“Strawberry”的新模型 可自主浏览互联网并自主推理

292 VIEWS
2024年7月15日
Google DeepMind全新机器人框架 使机器人能进行一对一的足球比赛

Google DeepMind全新机器人框架 使机器人能进行一对一的足球比赛

43 VIEWS
2024年4月12日
Vozo:AI视频生成器  使用提示重写脚本并重新给视频配音 生成新的视频

Vozo:AI视频生成器 使用提示重写脚本并重新给视频配音 生成新的视频

727 VIEWS
2024年7月23日
Pika Lip Sync: 唇型同步功能向所有人开放

Pika Lip Sync: 唇型同步功能向所有人开放

176 VIEWS
2024年3月6日
接近生产级别的的3D生成模型 Rodin Gen-1 正式上发布

接近生产级别的的3D生成模型 Rodin Gen-1 正式上发布

611 VIEWS
2024年6月1日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版