Glyph-ByT5：提高图像生成中文本渲染的准确性提升近90%

Glyph-ByT5项目是由微软亚洲研究院、清华大学、北京大学以及澳大利亚国立大学的研究人员共同开展的。该项目旨在解决当前文本到图像生成模型在视觉文本渲染方面的基本挑战。 主要贡献： 通过细致地调整字符感知的ByT5编码器，并利用精心策划的配对字形-文本数据集，创建了一系列定制的文本编码器，即Glyph-ByT5。该研究提出了一种有效的方法，将Glyph-ByT5与SDXL模型整合，创建了Glyph-SDXL模型，用于设计图像生成，显著提高了文本渲染的准确性。 主要功能： 更好地理解文字： Glyph-ByT5能够理解每一个字母和符号，确保它们在图片中的显示与你打字时看到的一样准确。

确保文字与其显示方式匹配： 它学会了如何确保文字的显示（我们称之为“字形”）与你想要的样式完全匹配。这意味着，不管是在海报上还是在T恤设计中，文字都能正确无误地显示出来。

提高文字显示的准确性： 通过使用Glyph-ByT5，文字在设计图像中的显示准确性大大提高，几乎接近完美。

渲染段落： 它不仅可以处理单个字母或词语，还可以处理整个段落，自动安排好多行文字的布局，使其既美观又准确。

改善场景中的文字显示： Glyph-ByT5还可以改善现实场景图片中文字的显示，无论是路标、广告牌还是衣服上的文字，都能清晰、准确地呈现。

技术方法 1. 字符意识的文本编码器定制 首先，项目通过微调ByT5编码器创建了Glyph-ByT5。ByT5是一个先进的文本编码器，已经具有一定的字符意识能力。这意味着它能够理解和处理单独的字符及其在文本中的位置和关系，而不仅仅是更高级别的词汇或句子结构。这种字符级的处理能力对于准确渲染图像中的文本至关重要。 基础编码器选择： 选择ByT5作为基础文本编码器，因为它具有字符级的处理能力，能够理解和处理文本中的每一个字符及其上下文。 微调与定制： 通过使用精心策划的配对字形-文本数据集对ByT5进行微调，进一步提高了字符级信息的编码能力，并实现了文本内容与其视觉表示（即字形）之间的精确对齐。 2. 与字形的对齐 为了进一步提高文本渲染的准确性，Glyph-ByT5在微调过程中使用了一个精心策划的配对字形-文本数据集。这个数据集包含大量的文本和相应字形（即文本的视觉表示）的例子。通过这种方式，Glyph-ByT5学会了如何将文本与其正确的字形对齐，从而在生成图像时能够精确渲染文本。 配对字形-文本数据集： 开发了一套包含大量文本和相应字形例子的数据集，这些字形是文本的视觉表示形式。这个数据集用于训练Glyph-ByT5，确保它能够理解文本与其视觉表现形式之间的对应关系。 字符感知与字形对齐训练： 通过这个数据集，Glyph-ByT5学习到如何将文本与其正确的字形对齐，从而在生成图像时能够精确渲染文本。 3. Glyph-SDXL模型的集成与设计图像生成 通过将定制的Glyph-ByT5与SDXL模型集成，项目团队创建了Glyph-SDXL模型。SDXL是一个高效的图像生成模型，而集成了Glyph-ByT5之后，它能够在生成设计图像时，更准确地渲染文本内容。这意味着在图像中描绘的文字不仅在视觉上更接近真实的字形，而且能够正确地呈现文本信息，包括复杂的段落和布局。 集成到SDXL模型： 将定制的Glyph-ByT5与SDXL模型集成，创建了Glyph-SDXL模型。SDXL是一个高效的图像生成模型，集成了Glyph-ByT5后，它能在生成设计图像时，更准确地渲染文本内容。 设计图像生成： Glyph-SDXL模型能够在设计图像生成过程中实现高精度的文本渲染，将文本渲染准确性从不足20%提升至近90%。 4. 段落文本渲染与场景文本渲染 新获得的段落文本渲染能力使得Glyph-SDXL模型能够处理和渲染包含大量文本的图像，例如文本段落。它不仅能够保持高度的拼写精度，而且能够自动进行多行布局，有效处理文字在视觉媒体中的排版和布局问题。 段落文本渲染能力： Glyph-SDXL模型新获得了段落文本渲染的能力，它可以处理并渲染包含数十至数百个字符的文本，实现高拼写精度的同时自动进行多行布局。 场景文本渲染的微调： 通过使用一小部分高质量、逼真的场景文本图像对Glyph-SDXL进行微调，该模型的场景文本渲染能力得到了显著提升，能够在开放领域真实图像中更准确地渲染场景文本。 使用GPT-4来帮助规划和设计排版布局 还可以使用GPT-4和Glyph-SDXL模型来自动化生成和优化排版布局。 自动化布局生成： 通过GPT-4的视觉规划能力，自动地生成设计的排版布局，而不需要人工提前设定文本框的位置。这意味着GPT-4可以帮助决定文字应该放在设计中的哪个位置，以及它们应该以什么样的布局展示。

布局预测与实现： 使用TextDiffuser-2的大型语言模型（LLM）来预测目标文本框的位置，然后基于这些预测使用Glyph-SDXL模型生成含有文本的图像。这个步骤展示了文本如何根据自动生成的布局被转化为视觉图像中的元素。

提供排版布局建议： 根据设计的内容和目标受众，GPT-4可以提出具体的排版布局建议，如文字的排列方式、字体选择、大小调整等，以确保信息的有效传达。 优化文本渲染： 结合Glyph-ByT5的高精度文本渲染能力，GPT-4的排版布局规划能进一步优化文本在图像中的表现，包括但不限于段落布局、自动多行布局等，以提高设计图像的整体质量和可读性。 项目地址： https://glyph-byt5.github.io/ 论文： https://arxiv.org/abs/2403.09622 Glyph-ByT5-v2版本 Glyph-ByT5-v2 能够在图形设计图像中实现高精度的文本渲染，同时提升视觉美感质量。

数据集创建 ：构建了一个高质量的多语言字形文本和图形设计数据集，包含超过100万个字形文本对和1000万个图形设计图像文本对，涵盖九种其他语言。 基准评估 ：建立了一个多语言视觉段落基准，包括1000个提示，每种语言100个，用于评估多语言视觉拼写准确性。 美学优化 ：采用最新的步骤感知偏好学习方法，增强视觉美学质量。 Glyph-ByT5-v2 结合这些技术，提供了一个强大的定制多语言文本编码器和一个强大的美学图形生成模型 Glyph-SDXL-v2，能够支持10种不同语言的准确拼写。相比于最新的 DALLE-3 和 Ideogram，Glyph-ByT5-v2 在多语言视觉文本渲染任务上取得了显著进步。

Glyph-ByT5-v2 相较于之前版本 Glyph-ByT5 进行了以下主要改进：

1. 多语言支持

之前版本 ：Glyph-ByT5 主要专注于英文文本的视觉渲染。 Glyph-ByT5-v2 ：扩展支持到10种不同语言，包括英文在内，显著提升了多语言文本渲染的准确性和广泛性。 2. 数据集扩展

之前版本 ：使用的主要是单一语言的数据集。 Glyph-ByT5-v2 ：创建了一个包含超过100万个字形文本对和1000万个图形设计图像文本对的多语言数据集，覆盖了更多语言，提高了模型的多语言处理能力。 3. 美学质量优化

之前版本 ：在视觉美感上表现相对较弱。 Glyph-ByT5-v2 ：采用了最新的步骤感知偏好学习（SPO）方法，显著提升了视觉美学质量，使生成的图像在视觉上更加吸引人。 4. 性能提升

之前版本 ：在文本渲染的准确性和质量上存在一定局限性。 Glyph-ByT5-v2 ：通过多任务学习和优化方法，提高了多语言文本渲染的精度和一致性，达到了更高的性能水平。 5. 用户体验改进

之前版本 ：用户体验相对有限，主要集中在文本渲染功能上。 Glyph-ByT5-v2 ：通过改进模型和数据集，增强了用户在不同语言和美学需求下的体验，提供了更加多样化和高质量的视觉文本渲染解决方案。 GitHub： https://github.com/AIGText/Glyph-ByT5 项目地址: https://glyph-byt5-v2.github.io