Stable Diffusion 3论文：一种新的多模态扩散变换器（MMDiT）架构

Stability AI发布了关于Stable Diffusion 3（SD3）的研究论文，揭示了这一最新模型的技术细节。SD3在诸如DALL·E 3、Midjourney v6、Ideogram v1等先进的文本到图像生成系统中，在字体渲染和命令遵循方面根据人类偏好评估取得了更好的表现。SD3引入了一种新的多模态扩散变换器（MMDiT）架构，使用独立的权重集处理图像和语言表示，比以前的版本在文本理解和拼写能力上有所提高。 功能特点 文本到图像生成 ：SD3 能够根据用户提供的文本描述生成高质量的图像。这意味着用户可以通过描述场景、对象或概念来创造出相应的图像。 高度的提示遵循 ：与先前版本相比，SD3 在遵循用户提示方面表现出色，能够更精确地理解和反映出用户的意图。 排版优化 ：SD3 对文本的渲染能力进行了优化，使得生成的图像中的文本部分更加准确和清晰。 多模态扩展性： SD3 的多模态扩散变换器 (MMDiT) 架构不仅适用于文本到图像的生成，还具有扩展到其他多模态应用的潜力，例如视频生成。这种架构使得模型能够在保持文本和图像生成质量的同时，进一步拓宽其应用范围。 较快的采样速度 ：通过采用矫正流（Rectified Flow）方法，Stable Diffusion 3实现了更高效的训练和/或更快的采样，从而减少了生成高分辨率图像和视频所需的计算成本和时间。 灵活的文本编码器 ：去除内存密集的文本编码器对于推理时的内存要求可以显著减少，仅带来较小的性能损失，特别是在不需要极端文本遵循能力的情况下。 技术细节 多模态扩散变换器 (MMDiT) ：SD3 采用了一种新的架构，名为多模态扩散变换器（MMDiT），它使用独立的权重集来处理图像和语言的表示。这种设计改进了模型的文本理解和拼写能力。 文本和图像嵌入器 ：为了处理文本和图像信息，SD3 使用了三种不同的文本嵌入器（两个 CLIP 模型和 T5）来编码文本，同时使用了改进的自动编码模型来编码图像令牌。 工作原理 信息融合 ：SD3 的核心在于如何处理和融合文本和图像信息。通过使用独立的权重集，模型能够将这两种不同类型的数据分别处理，然后通过注意力操作将它们的序列联合起来。这样，两种表示能够在保持独立的同时相互参考，从而提高生成质量。 矩形流 (Rectified Flow) ：SD3 通过一种矩形流的方法，使得数据和噪声在线性轨迹上连接，这样可以使得推理路径更直，减少生成图像所需的采样步骤。此外，通过引入新的轨迹采样计划，可以进一步提高模型性能。 性能优化 与其他模型的比较 ：根据人类评估，SD3 在视觉美学、提示遵循以及排版方面的性能超过了现有的最先进模型，如 DALL·E 3、Midjourney v6 和 Ideogram v1。 资源优化 ：在消费级硬件上的早期未优化推理测试中，SD3 最大的模型（8B 参数）能够在 RTX 4090 的 24GB VRAM 中运行，并且在使用 50 个采样步骤时仅需 34 秒即可生成 1024x1024 分辨率的图像。 性能优化和模型缩放 ：SD3 进行了性能优化和模型缩放的研究，展示了模型大小和训练步骤如何影响验证损失的下降趋势。通过对不同大小的模型进行训练，从 450M 参数的 15 个模块到 8B 参数的 38 个模块，SD3 证明了模型性能与验证损失之间存在强相关性，验证损失是模型整体性能的强预测指标。此外，缩放趋势显示没有饱和迹象，使研究者对未来进一步提升模型性能持乐观态度。 详细内容： https://stability.ai/news/stable-diffusion-3-research-paper 论文： https://stabilityai-public-packages.s3.us-west-2.amazonaws.com/Stable+Diffusion+3+Paper.pdf

Menu

分类目录

Stable Diffusion 3论文：一种新的多模态扩散变换器（MMDiT）架构

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

Anthropic 公布了一种全新的 AI 越狱技术可以轻松破解所有前沿模型

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

Recommendeds

SuperCraft：通过无限工作流画布将草图直接转换成真实产品图像并自动生成3D渲染

使用 PoSE 将 Llama 8B模型的上下文长度从8k扩展到64k

MeloTTS：支持中英混合发音的多语言文本到语音（TTS）库

Fashion-VDM：通过给定的服装图像和人物视频生成一段虚拟试穿视频

教程：教您如何轻松将任意视频一键合成到任意背景上附工作流下载

Meta将在Ray-Ban眼镜中加入快速识别任何物体的AI功能

PicMenu：利用AI可视化你的菜单你只需拍一下菜单即可将你的菜名生成对应的图片

科学家研究出一种新方法只需涂抹特殊溶液就能使活体动物的组织变得透明

2023-12-21 18:02:32 Twitter

Linly-Dubbing：一个开源的多语言AI配音和视频翻译工具

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Menu

分类目录

Stable Diffusion 3论文：一种新的多模态扩散变换器（MMDiT）架构

Support authors and subscribe to content

加入会员

Related Posts

Recommendeds

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?