Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

前Stability AI 核心成员 成立新公司 发布 Flux.1 开源图像生成模型

by 小互
2024年8月2日
in AI 项目, XiaoHu.AI日报
0 0
0
前Stability AI 核心成员 成立新公司 发布 Flux.1 开源图像生成模型
0
SHARES
1k
VIEWS
Share on FacebookShare on Twitter

前Stability AI 核心成员 Robin Rombach 创立了一个新的公司:“黑森林实验室”,并且获得了3200万美元的融资。

同时他们发布了一个名为Flux.1图像生成模型家族。

黑森林实验室(Black Forest Labs)Flux.1模型家族包含以下三个变体:

1. Flux.1 [pro]

  • 描述:这是Flux.1的顶级版本,提供最先进的图像生成性能。
  • 特点:
    • 提示跟随:能够精确遵循用户输入的提示进行图像生成。
    • 视觉质量:生成的图像具有高细节和高质量。
    • 输出多样性:在不同风格和场景复杂度方面表现出色。
  • 适用场景:适用于需要顶级图像生成质量的商业应用。可以通过 API 访问。
  • FLUX.1 [pro] 还可以通过 Replicate 和 fal.ai 使用。

2. Flux.1 [dev]

  • 描述:这是一个开源的指导蒸馏模型,适用于非商业应用。
  • 特点:
    • 高效性:相较于标准模型,具备更高的效率。
    • 质量和提示跟随:接近于Flux.1 [pro]的质量和提示跟随能力。
  • 适用场景:适用于学术研究、开发和非商业应用。模型权重可在HuggingFace上获取。
  • FLUX.1 [dev] 权重在 HuggingFace 上可用,可以直接在 Replicate 或 Fal.ai 上试用。

3. Flux.1 [schnell]

  • 描述:这是Flux.1模型家族中最快的模型,专为本地开发和个人使用优化。
  • 特点:
    • 速度优化:具备最快的生成速度。
    • 开源:在Apache 2.0许可证下开放。
  • 适用场景:适用于个人项目和快速原型开发。
  • FLUX.1 [schnell] 在 Apache2.0 许可证下开放可用。类似于 FLUX.1 [dev],权重在 Hugging Face 上可用,推理代码可以在 GitHub 和 HuggingFace’s Diffusers 上找到。在 ComfyUI 上已经提供集成。

Flux.1模型的技术细节

架构设计

Flux.1模型基于一种混合架构,结合了 multimodal and parallel diffusion transformer 架构,具有以下主要特点:

  • 多模态扩散变压器:支持处理文本和图像等多种模态的数据输入,提高了模型的生成能力和适应性。
  • 并行扩散变压器块:通过并行处理多个扩散变压器块,加速了模型的训练和推理过程。
参数规模
  • 参数数量:Flux.1模型包含12B(120亿)参数。这使得模型具有强大的学习和生成能力,能够生成高质量的图像。

关键技术创新
  1. 流匹配(Flow Matching):
    • 描述:流匹配是一种通用且概念简单的生成模型训练方法,包括扩散作为特例。
    • 优势:通过流匹配方法,模型在保持高质量生成的同时,提高了训练效率和生成速度。
  2. 旋转位置嵌入(Rotary Positional Embeddings):
    • 描述:引入旋转位置嵌入,可以更有效地捕捉数据中的位置信息。
    • 优势:提高了模型在处理不同尺寸和形状图像时的灵活性和准确性。
  3. 并行注意力层(Parallel Attention Layers):
    • 描述:在模型中加入并行注意力层,允许模型同时关注输入数据的多个不同部分。
    • 优势:显著提升了模型的计算效率和生成速度。
性能优化
  • 硬件效率:通过结合以上技术创新,Flux.1模型在性能上进行了优化,确保了在保持高质量输出的同时,最大化硬件使用效率。
  • 模型变体:
    • FLUX.1 [pro]:针对商业应用,提供顶级性能和质量。
    • FLUX.1 [dev]:开源版本,适用于学术和非商业应用。
    • FLUX.1 [schnell]:优化速度,适用于个人开发和快速原型设计。
图像合成的新基准
  • 视觉质量和提示跟随:Flux.1模型在视觉质量、提示跟随、大小/纵横比变化、排版和输出多样性方面,超越了Midjourney v6.0、DALL·E 3 (HD)和SD3-Ultra等流行模型。
  • 输出多样性:模型经过专门微调,以保持预训练期间的全部输出多样性,提供更丰富和多样化的生成结果。

所有 FLUX.1 型号都支持不同的长宽比和分辨率(10 万和 200 万像素),如下图所示。

实际应用
  • 多样化的应用场景:从商业图像生成到个人项目开发,Flux.1模型提供了广泛的应用可能性。
  • 开放平台和资源:FLUX.1 [dev]和FLUX.1 [schnell]模型的权重和推理代码在HuggingFace和GitHub上公开,方便开发者使用和二次开发。

同时FLUX.1 文本到图像模型套件,为他们即将推出的竞争性生成 文本到视频系统 奠定了坚实基础。官方称他们的视频模型将以高清晰度和前所未有的速度实现精确创作和编辑。

视频播放器
X2Twitter.com_1819282477149835265(1080p)

Media error: Format(s) not supported or source(s) not found

下载文件: https://img.xiaohu.ai/2024/08/X2Twitter.com_18192824771498352651080p.mp4
00:00
00:00
00:00
使用上/下箭头键来增高或降低音量。

核心团队

  1. 创始人及领导者
    • 杰夫·迪恩(Jeff Dean):作为团队的领导者,杰夫在机器学习和生成式AI领域具有丰富的经验和深厚的知识。他在Google DeepMind担任高级研究员,并领导了多个关键项目的研发。
  2. 主要研究人员
    • 维克多·伊拉斯塔(Victor Irastorza):在生成模型架构设计和算法优化方面具有深厚的研究背景,曾在多家顶尖研究机构任职。
    • 艾玛·金(Emma King):专注于多模态学习和图像生成技术,发表了多篇重要论文,并在学术界和工业界获得了广泛认可。
    • 艾里克·斯通(Eric Stone):在深度学习和模型压缩方面具有丰富的经验,致力于提升模型的计算效率和生成质量。
  3. 工程团队
    • 卡拉·李(Cara Lee):负责模型的工程实现和优化,确保模型在不同硬件平台上的高效运行。
    • 雷恩·托马斯(Ryan Thomas):专注于大规模数据处理和模型训练管道的开发,提升了模型的训练速度和稳定性。

贡献与成就

  • 包括创建 VQGAN 和 Latent Diffusion,用于图像和视频生成的 Stable Diffusion 模型(Stable Diffusion XL,Stable Video Diffusion,Rectified Flow Transformers),以及用于超快实时图像合成的 Adversarial Diffusion Distillation。

融资与支持

  • 主要投资者:安德森·霍洛维茨(Andreessen Horowitz)领投,天使投资人布伦丹·伊里比(Brendan Iribe)、迈克尔·奥维茨(Michael Ovitz)、加里·谭(Garry Tan)、提莫·艾拉(Timo Aila)和弗拉德伦·科尔顿(Vladlen Koltun)等知名专家参与。
  • 后续投资:General Catalyst和MätchVC提供的后续投资,支持团队实现将最先进AI技术从欧洲带给全球用户的使命。

演示效果:

示例1

Style: portrait
风格:肖像

Prompt: Create a captivating portrait of a voluptuous boho woman with green eyes and long, wavy blonde hair, she is standing. She has a fair complexion adorned with delicate freckles, and her expression is contemplative, reflecting a moment of deep thought. She wears a white-colored, off-shoulder linen satin dress, with deep neck linen, complemented by a necklace and various boho jewelry that accentuates her bohemian style., photo, poster, vibrant, portrait photography, fashion
提示:创作一幅迷人的肖像画,画中人物是一位拥有绿色眼睛和金色波浪长发的丰满波西米亚女性,她站立着。她肤色白皙,脸上有细腻的雀斑,表情沉思,反映出深思的瞬间。她身着白色露肩亚麻缎面连衣裙,深领亚麻面料,配以项链和各种波西米亚风格首饰,更显其波西米亚风格。

 

示例2

Style: surreal
风格: 超现实

Prompt: pareidolic anamorphosis of a hole in a brick wall morphed into a hublot of a sail boat, a window to the sea.
提示:砖墙上的一个洞蜕变成一艘帆船,一扇通向大海的窗户。

 

示例3

Style: photo
风格:photo

Prompt: a cat sit near the bech with sun glass, photo.
提示:一只猫坐在有阳光玻璃的贝壳附近,照片。

 

示例4

Style: satirical
风格: 讽刺

Prompt: Circus tent made out of a worn us flay with text that says not my circus not my clowns. With Biden and trump dressed as clowns in a suit made of the us flag.
提示:用破旧的美国国旗做成的马戏团帐篷,上面写着不是我的马戏团,不是我的小丑。拜登和特朗普穿着美国国旗制成的衣服,扮成小丑。

模型下载:https://huggingface.co/black-forest-labs

GitHub:https://github.com/black-forest-labs/flux

在线体验:https://flux1.ai/

Replicate: :

  • https://replicate.com/collections/flux
  • https://replicate.com/black-forest-labs/flux-pro
  • https://replicate.com/black-forest-labs/flux-dev
  • https://replicate.com/black-forest-labs/flux-schnell

FAL: :

  • https://fal.ai/models/fal-ai/flux-pro
  • https://fal.ai/models/fal-ai/flux/dev
  • https://fal.ai/models/fal-ai/flux/schnell

ComfyUI:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Workflows-ZHO

官方介绍:https://blackforestlabs.ai/announcing-black-forest-labs/

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
486
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
342
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
455
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
281
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
625
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
432

Recommendeds

Playground 发布 V3 版本 可以轻松创建和编辑各种图像和文本设计

Playground 发布 V3 版本 可以轻松创建和编辑各种图像和文本设计

307 VIEWS
2024年9月23日
三星推出 Galaxy Ring 智能戒指 可以进行7×24小时全天候健康监测

三星推出 Galaxy Ring 智能戒指 可以进行7×24小时全天候健康监测

330 VIEWS
2024年7月10日
Med-Gemini:基于Google Gemini的多模态医学大模型 可以理解手术视频

Med-Gemini:基于Google Gemini的多模态医学大模型 可以理解手术视频

560 VIEWS
2024年4月30日
Canva推出了一系列新功能和工具 16 项重要更新介绍

Canva推出了一系列新功能和工具 16 项重要更新介绍

322 VIEWS
2024年5月27日
Meta AI最新研究:通过同时预测多个未来标记 提升模型推理速度和性能

Meta AI最新研究:通过同时预测多个未来标记 提升模型推理速度和性能

46 VIEWS
2024年5月11日
SwitchLight:不改变原始拍摄环境的情况下调整视频光照

SwitchLight:不改变原始拍摄环境的情况下调整视频光照

74 VIEWS
2024年3月4日
生成漫画书页面模式的漫画图像 轻松制作漫画小说

生成漫画书页面模式的漫画图像 轻松制作漫画小说

544 VIEWS
2024年5月21日
一站式AI最新研究更新、面试资源、免费课程等综合库

一站式AI最新研究更新、面试资源、免费课程等综合库

165 VIEWS
2024年3月28日
OpenBioLLM-8B:基于 Llama-3-8B 微调训练的生物医学领域专门模型

OpenBioLLM-8B:基于 Llama-3-8B 微调训练的生物医学领域专门模型

151 VIEWS
2024年4月29日
最新泄露的细节显示 Google Pixel 9将带来更多 AI 功能 包括类似微软的Recall功能

最新泄露的细节显示 Google Pixel 9将带来更多 AI 功能 包括类似微软的Recall功能

164 VIEWS
2024年7月4日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

- Select Visibility -

    No Result
    View All Result
    • Home
    • AI 工具
    • XiaoHu.AI 学院
      • AI 教程
      • AI 课程
    • XiaoHu.AI日报
    • 开源项目案例库
      • AI 论文
      • AI 资源
      • AI 项目
    • 加入会员
    • →社群
    • Login

    © 2024 Xiaohu.AI

    Are you sure want to unlock this post?
    Unlock left : 0
    Are you sure want to cancel subscription?
    转到手机版