Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

前Stability AI 核心成员 成立新公司 发布 Flux.1 开源图像生成模型

by 小互
2024年8月2日
in AI 项目, XiaoHu.AI日报
0 0
0
前Stability AI 核心成员 成立新公司 发布 Flux.1 开源图像生成模型
0
SHARES
1k
VIEWS
Share on FacebookShare on Twitter

前Stability AI 核心成员 Robin Rombach 创立了一个新的公司:“黑森林实验室”,并且获得了3200万美元的融资。

同时他们发布了一个名为Flux.1图像生成模型家族。

黑森林实验室(Black Forest Labs)Flux.1模型家族包含以下三个变体:

1. Flux.1 [pro]

  • 描述:这是Flux.1的顶级版本,提供最先进的图像生成性能。
  • 特点:
    • 提示跟随:能够精确遵循用户输入的提示进行图像生成。
    • 视觉质量:生成的图像具有高细节和高质量。
    • 输出多样性:在不同风格和场景复杂度方面表现出色。
  • 适用场景:适用于需要顶级图像生成质量的商业应用。可以通过 API 访问。
  • FLUX.1 [pro] 还可以通过 Replicate 和 fal.ai 使用。

2. Flux.1 [dev]

  • 描述:这是一个开源的指导蒸馏模型,适用于非商业应用。
  • 特点:
    • 高效性:相较于标准模型,具备更高的效率。
    • 质量和提示跟随:接近于Flux.1 [pro]的质量和提示跟随能力。
  • 适用场景:适用于学术研究、开发和非商业应用。模型权重可在HuggingFace上获取。
  • FLUX.1 [dev] 权重在 HuggingFace 上可用,可以直接在 Replicate 或 Fal.ai 上试用。

3. Flux.1 [schnell]

  • 描述:这是Flux.1模型家族中最快的模型,专为本地开发和个人使用优化。
  • 特点:
    • 速度优化:具备最快的生成速度。
    • 开源:在Apache 2.0许可证下开放。
  • 适用场景:适用于个人项目和快速原型开发。
  • FLUX.1 [schnell] 在 Apache2.0 许可证下开放可用。类似于 FLUX.1 [dev],权重在 Hugging Face 上可用,推理代码可以在 GitHub 和 HuggingFace’s Diffusers 上找到。在 ComfyUI 上已经提供集成。

Flux.1模型的技术细节

架构设计

Flux.1模型基于一种混合架构,结合了 multimodal and parallel diffusion transformer 架构,具有以下主要特点:

  • 多模态扩散变压器:支持处理文本和图像等多种模态的数据输入,提高了模型的生成能力和适应性。
  • 并行扩散变压器块:通过并行处理多个扩散变压器块,加速了模型的训练和推理过程。
参数规模
  • 参数数量:Flux.1模型包含12B(120亿)参数。这使得模型具有强大的学习和生成能力,能够生成高质量的图像。

关键技术创新
  1. 流匹配(Flow Matching):
    • 描述:流匹配是一种通用且概念简单的生成模型训练方法,包括扩散作为特例。
    • 优势:通过流匹配方法,模型在保持高质量生成的同时,提高了训练效率和生成速度。
  2. 旋转位置嵌入(Rotary Positional Embeddings):
    • 描述:引入旋转位置嵌入,可以更有效地捕捉数据中的位置信息。
    • 优势:提高了模型在处理不同尺寸和形状图像时的灵活性和准确性。
  3. 并行注意力层(Parallel Attention Layers):
    • 描述:在模型中加入并行注意力层,允许模型同时关注输入数据的多个不同部分。
    • 优势:显著提升了模型的计算效率和生成速度。
性能优化
  • 硬件效率:通过结合以上技术创新,Flux.1模型在性能上进行了优化,确保了在保持高质量输出的同时,最大化硬件使用效率。
  • 模型变体:
    • FLUX.1 [pro]:针对商业应用,提供顶级性能和质量。
    • FLUX.1 [dev]:开源版本,适用于学术和非商业应用。
    • FLUX.1 [schnell]:优化速度,适用于个人开发和快速原型设计。
图像合成的新基准
  • 视觉质量和提示跟随:Flux.1模型在视觉质量、提示跟随、大小/纵横比变化、排版和输出多样性方面,超越了Midjourney v6.0、DALL·E 3 (HD)和SD3-Ultra等流行模型。
  • 输出多样性:模型经过专门微调,以保持预训练期间的全部输出多样性,提供更丰富和多样化的生成结果。

所有 FLUX.1 型号都支持不同的长宽比和分辨率(10 万和 200 万像素),如下图所示。

实际应用
  • 多样化的应用场景:从商业图像生成到个人项目开发,Flux.1模型提供了广泛的应用可能性。
  • 开放平台和资源:FLUX.1 [dev]和FLUX.1 [schnell]模型的权重和推理代码在HuggingFace和GitHub上公开,方便开发者使用和二次开发。

同时FLUX.1 文本到图像模型套件,为他们即将推出的竞争性生成 文本到视频系统 奠定了坚实基础。官方称他们的视频模型将以高清晰度和前所未有的速度实现精确创作和编辑。

X2Twitter.com_1819282477149835265(1080p)

核心团队

  1. 创始人及领导者
    • 杰夫·迪恩(Jeff Dean):作为团队的领导者,杰夫在机器学习和生成式AI领域具有丰富的经验和深厚的知识。他在Google DeepMind担任高级研究员,并领导了多个关键项目的研发。
  2. 主要研究人员
    • 维克多·伊拉斯塔(Victor Irastorza):在生成模型架构设计和算法优化方面具有深厚的研究背景,曾在多家顶尖研究机构任职。
    • 艾玛·金(Emma King):专注于多模态学习和图像生成技术,发表了多篇重要论文,并在学术界和工业界获得了广泛认可。
    • 艾里克·斯通(Eric Stone):在深度学习和模型压缩方面具有丰富的经验,致力于提升模型的计算效率和生成质量。
  3. 工程团队
    • 卡拉·李(Cara Lee):负责模型的工程实现和优化,确保模型在不同硬件平台上的高效运行。
    • 雷恩·托马斯(Ryan Thomas):专注于大规模数据处理和模型训练管道的开发,提升了模型的训练速度和稳定性。

贡献与成就

  • 包括创建 VQGAN 和 Latent Diffusion,用于图像和视频生成的 Stable Diffusion 模型(Stable Diffusion XL,Stable Video Diffusion,Rectified Flow Transformers),以及用于超快实时图像合成的 Adversarial Diffusion Distillation。

融资与支持

  • 主要投资者:安德森·霍洛维茨(Andreessen Horowitz)领投,天使投资人布伦丹·伊里比(Brendan Iribe)、迈克尔·奥维茨(Michael Ovitz)、加里·谭(Garry Tan)、提莫·艾拉(Timo Aila)和弗拉德伦·科尔顿(Vladlen Koltun)等知名专家参与。
  • 后续投资:General Catalyst和MätchVC提供的后续投资,支持团队实现将最先进AI技术从欧洲带给全球用户的使命。

演示效果:

示例1

Style: portrait
风格:肖像

Prompt: Create a captivating portrait of a voluptuous boho woman with green eyes and long, wavy blonde hair, she is standing. She has a fair complexion adorned with delicate freckles, and her expression is contemplative, reflecting a moment of deep thought. She wears a white-colored, off-shoulder linen satin dress, with deep neck linen, complemented by a necklace and various boho jewelry that accentuates her bohemian style., photo, poster, vibrant, portrait photography, fashion
提示:创作一幅迷人的肖像画,画中人物是一位拥有绿色眼睛和金色波浪长发的丰满波西米亚女性,她站立着。她肤色白皙,脸上有细腻的雀斑,表情沉思,反映出深思的瞬间。她身着白色露肩亚麻缎面连衣裙,深领亚麻面料,配以项链和各种波西米亚风格首饰,更显其波西米亚风格。

 

示例2

Style: surreal
风格: 超现实

Prompt: pareidolic anamorphosis of a hole in a brick wall morphed into a hublot of a sail boat, a window to the sea.
提示:砖墙上的一个洞蜕变成一艘帆船,一扇通向大海的窗户。

 

示例3

Style: photo
风格:photo

Prompt: a cat sit near the bech with sun glass, photo.
提示:一只猫坐在有阳光玻璃的贝壳附近,照片。

 

示例4

Style: satirical
风格: 讽刺

Prompt: Circus tent made out of a worn us flay with text that says not my circus not my clowns. With Biden and trump dressed as clowns in a suit made of the us flag.
提示:用破旧的美国国旗做成的马戏团帐篷,上面写着不是我的马戏团,不是我的小丑。拜登和特朗普穿着美国国旗制成的衣服,扮成小丑。

模型下载:https://huggingface.co/black-forest-labs

GitHub:https://github.com/black-forest-labs/flux

在线体验:https://flux1.ai/

Replicate: :

  • https://replicate.com/collections/flux
  • https://replicate.com/black-forest-labs/flux-pro
  • https://replicate.com/black-forest-labs/flux-dev
  • https://replicate.com/black-forest-labs/flux-schnell

FAL: :

  • https://fal.ai/models/fal-ai/flux-pro
  • https://fal.ai/models/fal-ai/flux/dev
  • https://fal.ai/models/fal-ai/flux/schnell

ComfyUI:https://github.com/ZHO-ZHO-ZHO/ComfyUI-Workflows-ZHO

官方介绍:https://blackforestlabs.ai/announcing-black-forest-labs/

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
486
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
342
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
455
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
281
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
625
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
432

Recommendeds

Augmented Physics:增强现实你的物理课本 让你的物理课本上的图表动起来

Augmented Physics:增强现实你的物理课本 让你的物理课本上的图表动起来

1.6k VIEWS
2024年10月15日
报告:2024年美国机器人技术发展路线图

报告:2024年美国机器人技术发展路线图

197 VIEWS
2024年4月28日
Humane 发布CosmOS  由人工智能驱动操作系统 专为智能设备和复杂任务设计

Humane 发布CosmOS 由人工智能驱动操作系统 专为智能设备和复杂任务设计

205 VIEWS
2024年12月5日
面壁智能发布 MiniCPM 3.0 声称端侧模型 ChatGPT 时刻到来

面壁智能发布 MiniCPM 3.0 声称端侧模型 ChatGPT 时刻到来

343 VIEWS
2024年9月6日
吴恩达提出的基于反思代理工作流的机器翻译方法

吴恩达提出的基于反思代理工作流的机器翻译方法

293 VIEWS
2024年6月13日
Chameleon:能同时理解和生成文本与图像混合模态模型

Chameleon:能同时理解和生成文本与图像混合模态模型

201 VIEWS
2024年5月22日
实时打字翻译工具 支持中英文等多种语言的文字和语音实时翻译

实时打字翻译工具 支持中英文等多种语言的文字和语音实时翻译

318 VIEWS
2024年7月29日
GameGen-O:可以生成开放世界游戏的模型  自动生成角色、场景、动作和事件

GameGen-O:可以生成开放世界游戏的模型 自动生成角色、场景、动作和事件

331 VIEWS
2024年9月14日
T-Rex2:在无需训练的情况下精准识别视频中的目标对象

T-Rex2:在无需训练的情况下精准识别视频中的目标对象

73 VIEWS
2024年3月26日
阿里云发布 VideoLLaMA 2 视频语言模型 提升模型对视频、音频内容的理解能力

阿里云发布 VideoLLaMA 2 视频语言模型 提升模型对视频、音频内容的理解能力

400 VIEWS
2024年6月15日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版