PIXART-Σ：利用Diffusion Transformer（DiT）直接生成4K分辨率图像

PIXART-Σ是由华为诺亚方舟实验室、大连理工大学和香港大学的研究人员共同开发的一个基于Diffusion Transformer（DiT）的图像生成模型。 模型采用了一种独特的训练方法——从弱到强的训练方式——能够根据文本描述生成高质量的4K分辨率图像。这意味着，给定一段文字描述，PixArt-Σ能够创造出与描述相匹配的、非常高清晰度的图像。这对于需要高分辨率图像的领域，比如电影制作和游戏开发，是一个巨大的进步。 功能特点 4K文本到图像生成 ：能够根据文本提示直接生成4K分辨率的高质量图像，为用户提供了前所未有的图像生成体验。

高质量训练数据 ：采用更高质量的图像数据和更详细的图像描述进行模型训练，确保生成的图像不仅分辨率高，而且细节丰富、真实感强。

有效的Token压缩技术 ：通过一种新颖的注意力模块对键和值进行压缩，提高了模型处理超高分辨率图像的效率，使其能够以较小的模型尺寸实现高效的图像生成。

显著的模型尺寸优势 ：尽管能够生成4K分辨率的图像，PIXART-Σ的模型大小（0.6B参数）远小于当前市场上的其他文本到图像扩散模型，如SDXL（2.6B参数）和SD Cascade（5.1B参数），使其在保持高图像质量的同时，更加高效和灵活。

适用于多种应用场景 ：能够支持生成多种类型的高分辨率图像，包括自然景观、建筑设计、游戏截图、现代艺术作品等，适合在电影、游戏、广告和艺术创作等多个行业中使用。

工作原理 与其前身 PixArt-α 相比，这个模型在提供更高图像保真度和更好的文本提示对齐方面取得了显著进步。其创新之处在于采用了“弱到强训练”方法，模型从基础预训练阶段（继承自PixArt-α）开始，通过整合更高质量的数据和高效的令牌压缩技术，进展到更强大的状态。这种方法使PixArt-Σ能够以较小的模型大小（0.6亿参数）实现优越的图像生成能力，与其他文本到图像模型相比，能够以最小的计算资源创造高分辨率的视觉内容。 基于弱到强的训练策略 ：PIXART-Σ采用了一种独特的训练方法，即从“弱”（使用质量较低的训练数据）到“强”（使用高质量训练数据）的过程。这种策略允许模型在初期通过较大量的低质量数据学习基本的文本到图像转换规律，然后通过较小量的高质量数据进行精细调整，以提高生成图像的质量和与文本提示的对齐程度。

扩散变换器模型（DiT） ：作为核心架构，DiT利用了扩散过程（逐步从随机噪声生成图像的过程）与Transformer模型的结合，能够有效地处理和生成高分辨率图像。这种结合利用了Transformer的长距离依赖学习能力，以及扩散模型在生成细节丰富且连贯图像方面的优势。

技术创新 高质量训练数据 ：PIXART-Σ使用了配对的高质量图像和详细的图像标题，这不仅提高了训练效率，也提升了生成图像的质量。通过精确的图像和文本配对，模型能够更好地学习文本描述与视觉内容之间的对应关系。

有效的Token压缩 ：为了提高处理效率和支持高分辨率图像的生成，PIXART-Σ引入了一种新颖的注意力模块，该模块能够对注意力机制中的键（keys）和值（values）进行压缩。这种压缩方法不仅减少了计算资源的需求，还保持了生成图像的高质量。

超高分辨率图像生成 ：与其他文本到图像的扩散模型相比，PIXART-Σ在较小的模型参数（0.6B参数）下实现了4K分辨率图像的直接生成，这一点在同类模型中是非常突出的。这不仅提高了图像的视觉质量，也为制作高分辨率的视觉内容（如海报、壁纸）提供了可能。

高质量数据集 PixArt-Σ项目在构建和训练过程中使用了三类主要的数据集，每个数据集针对特定的优化和训练需求，具体如下： 高质量训练数据集 ：这是PixArt-Σ重要的改进之一，相比PixArt-α使用了更优质的图像数据和更精确、详细的图像描述。

图像 ：包含33M高分辨率图像，全部超过1K分辨率，其中2.3M图像的分辨率约为4K。这些图像在美学上质量高，涵盖了广泛的艺术风格。 描述 ：为上述图像提供了更精确和详细的描述。与PixArt-α中使用的LLaVA相比，这里使用了更强大的图像描述器Share-Captioner。此外，为了改善文本与视觉概念之间的对齐能力，文本编码器（如Flan-T5）的令牌长度扩展到了大约300词，有效地消除了模型的幻觉倾向，实现了更高质量的文本-图像对齐。 内部数据集的扩展 （Internal-α与Internal-Σ）：

Internal-α ：早期的数据集，包含14M图像和相应的描述，使用LLaVA和原始描述。 Internal-Σ ：扩展后的数据集，从14M增加到33M图像，采用Share-Captioner生成的描述和原始描述，平均描述长度显著增加，从而增强了描述的准确性和文本-图像对齐的质量。 4K分辨率图像数据集 ：