GOT-OCR2.0：端到端的 OCR 模型可以处理各种复杂的光学字符任务

GOT-OCR2.0 是一种用于光学字符识别（OCR）任务的通用模型，旨在解决传统OCR系统（OCR-1.0）和现有大视觉语言模型（LVLMs）在OCR任务中的局限性。 传统OCR系统（OCR-1.0）通常采用多模块流水线模式（例如：元素检测、区域裁剪、字符识别等），容易陷入局部最优问题，且维护成本高。该模型通过端到端架构，提供高效的字符识别能力，适用于广泛的OCR任务。 该模型可以处理各种复杂的光学字符任务，不仅包括普通文本，还可以识别公式、表格、乐谱等复杂内容。相比于老式的OCR系统，GOT模型更加智能化、灵活，并且易于使用。实验表明，该模型在中文和英文识别方面都有很好的表现，尤其擅长处理高分辨率和多页文档。 主要功能特点： 1. 统一的端到端架构 GOT-OCR2.0 采用统一的端到端模型架构，简化了传统OCR系统中复杂的多模块流程（如文本检测、区域裁剪、字符识别等），极大降低了系统的维护成本。 该模型通过高度压缩的编码器和长上下文解码器相结合的方式，支持全局和局部字符识别任务。 2. 支持多种OCR任务 场景文本识别 ：能够处理自然场景中的文本识别任务，如街道标志、广告牌上的文字等。 文档OCR ：处理文档中完整页面的文字识别，无论是纯文本文档，还是含有表格、公式等的复杂文档。 格式化文本OCR ：支持将光学文档中的文本直接转换为 Markdown、Latex 等格式，保持复杂文档的原始排版和格式。 3. 细粒度OCR CR-2.0可以进行细粒度的区域识别，支持在高密度文本场景下对特定区域进行精细的字符识别，如文档中的特定段落或图像中的特定区域。此功能提高了识别的准确性和交互性，适用于需要高精度识别的应用场景，如法律文档、学术论文的关键部分提取。 交互式OCR： OCR-2.0具备交互式OCR功能，支持根据用户提供的坐标或颜色提示进行区域级别的字符识别。用户可以通过定义感兴趣的区域或通过颜色标记特定部分而不是整个页面的内容，适用于例如表单识别等场景。精确控制识别范围，提高了在复杂场景下的识别灵活性。 4. 动态分辨率和多页OCR 动态分辨率 ：GOT 支持对超高分辨率图像（如大幅海报、拼接PDF页面）进行OCR处理，使用动态分辨率技术确保在图像过大时保持识别准确性。 多页OCR ：GOT 能够批量处理多页文档，例如长篇PDF文件或包含多张图片的OCR任务，极大提升了处理效率。 5. 复杂字符和格式支持 公式、表格、图表识别 ：除了基本文本识别，GOT 还能识别和处理文档中的数学公式、化学分子式、表格、图表等复杂结构，并将其转换为可编辑的格式（如 LaTeX 或 Python 字典格式）。 格式化输出： OCR-2.0支持生成多种格式化输出，包括Markdown、TikZ、SMILES、LATEX等，能够将识别到的字符以结构化的方式输出，例如表格、数学公式、分子结构等。用户可以直接将OCR的结果用于进一步的编辑和处理，尤其在学术论文、科学计算和复杂文档管理中表现尤为突出。 乐谱和几何图形识别 ：该模型还支持识别乐谱和几何图形，并将其转换为类似于 TikZ 或 Kern 格式的可编辑文本输出。 6. 高性能表现、 低训练与推理成本 与大规模的视觉语言模型相比，GOT-OCR2.0 的参数较少（约580M），因此其训练和推理成本相对较低，适合部署在消费级 GPU 上。 在实验中，GOT 在多种OCR任务中表现出色，包括中文和英文的文档OCR、场景文本识别、格式化文档处理以及细粒度区域识别等任务。 7. 模型的可扩展性 GOT 支持通过微调新增 OCR 功能，使得它能够适应新的需求场景，例如支持更多语言的字符识别或更复杂的视觉结构。 多语言支持： OCR-2.0主要支持中文和英文字符识别，并能够通过进一步的微调扩展到更多语言。让OCR-2.0能够应用于全球范围内的多语言文档处理，适应不同语言场景中的OCR需求。 模型架构 OCR-2.0的GOT（General OCR Theory）模型架构是基于编码器-解码器的端到端结构设计的。其核心目标是通过简洁高效的架构处理多种光学字符任务，具备较强的泛化能力和低成本的训练与推理要求。下面是GOT模型架构的主要组件及其功能：

1. 编码器（Encoder） 功能 ：编码器的任务是将光学图像转换为压缩的特征表示，即“图像tokens”。 架构 ：GOT的编码器基于Vision Transformer（ViT）设计，具有高压缩率的能力。具体来说，它能够将输入的1024×1024像素图像压缩为256个图像tokens（每个token大小为256×1024），这大大降低了计算复杂度。 输入支持 ：编码器支持各种输入类型，包括场景图像和文档图像，能够处理不同的光学字符（如文本、表格、公式、几何图形等）。 2. 线性映射层（Linear Layer） 功能 ：线性映射层负责连接编码器和解码器，将编码器生成的图像tokens映射到解码器能够处理的维度。 架构 ：在GOT模型中，线性映射层将编码器的输出从1024×768的维度调整为解码器所需的1024×1024维度。它在整个模型架构中充当桥梁，确保编码器和解码器之间的信息顺畅传递。 3. 解码器（Decoder） 功能 ：解码器负责将编码器生成的图像tokens转化为可读的OCR结果，即输出最终的识别文本。 架构 ：GOT的解码器是基于Qwen-0.5B语言模型（大约500M参数）设计的，支持长上下文处理（最大支持8K tokens）。解码器的任务是对输入的长文本或复杂光学字符进行逐步解析，并生成相应的OCR输出。 输出格式 ：解码器支持输出普通文本、公式、表格、图表等复杂格式，用户可以根据需要通过简单的提示生成Markdown、TikZ、SMILES等格式化结果。 4. 多阶段训练策略 GOT模型的训练过程分为三个主要阶段，旨在提高模型的泛化能力和对多任务的适应性：

阶段1：编码器预训练 目标：通过场景文本和文档级别字符图像的预训练，使编码器具备基本的字符编码能力。 策略：使用较小的解码器（如OPT-125M）与编码器联合训练，通过在自然场景和文档图像上训练，提升编码器对多种字符格式的编码能力。 阶段2：编码器与解码器联合训练 目标：通过连接更强大的解码器（如Qwen-0.5B）形成完整的GOT模型。 策略：在该阶段，引入更多复杂的OCR数据集（如乐谱、数学公式、几何图形等）进行训练，使模型具备处理更多字符类型的能力。 阶段3：解码器后训练（微调） 目标：针对新任务或用户自定义需求，进一步优化解码器。 策略：在该阶段，主要通过生成的合成数据集（如多页文档、超高分辨率图像）对解码器进行微调，以提升模型的实际应用能力，如动态分辨率处理、多页OCR等。 5. 数据引擎与合成数据 为了提高GOT模型的泛化能力，研究者设计了多个数据引擎，生成大量的合成数据以支持多任务联合训练。这些数据引擎包括：

普通OCR数据 ：如场景文本和文档OCR数据。 格式化数据 ：包括数学公式（LATEX格式）、分子结构（SMILES格式）、表格（LATEX生成）等。 一般光学字符数据 ：如乐谱、几何图形、图表等。 细粒度数据 ：用于区域级OCR、动态分辨率处理、交互式OCR等场景。 6. 动态分辨率与多页OCR支持 动态分辨率 ：GOT模型支持在超高分辨率场景中通过滑动窗口技术来处理大尺寸图像，确保精确的字符识别。 多页OCR ：支持处理多页PDF文件，并通过一次性处理多个页面，简化多页文档的OCR任务。 7. 交互式OCR功能 GOT模型能够进行交互式OCR处理，允许用户通过输入坐标或颜色提示，指定识别图像的特定区域。这一功能尤其适合在复杂图像或文档中进行局部识别，提升了模型的灵活性。

实验结果 GOT模型的实验结果展示了其在多个OCR任务中的出色表现，主要包括普通文档OCR、场景文本OCR、格式化文档OCR以及更广泛的字符OCR任务。下面详细总结GOT模型在各个任务中的实验结果：

1. 普通文档OCR性能 任务描述 ：测试GOT模型在普通文档OCR任务中的性能，主要处理PDF格式的中英文文档。 评价指标 ：包括编辑距离（Edit Distance）、F1分数（F1-score）、精确率（Precision）、召回率（Recall）、BLEU分数和METEOR分数。 实验结果 ： GOT在中文和英文文档OCR任务中都表现出色，优于其他大规模模型（如InternVL-ChatV1.5、Qwen-VL-Max等）。 特别是在编辑距离上，GOT模型的表现显著优于其他竞争模型，中文编辑距离为0.038，英文编辑距离为0.035。 GOT在F1分数和BLEU分数上也达到了接近98%的高准确率，显示出其强大的文本感知与识别能力。 模型 参数量 编辑距离 (zh) F1分数 (zh) 编辑距离 (en) F1分数 (en) GOT 580M 0.038 0.980 0.035 0.972 InternVL-1.5 26B 0.265 0.816 0.393 0.751 Qwen-VL-Max >72B 0.091 0.931 0.057 0.964 2. 场景文本OCR性能 任务描述 ：测试GOT在自然场景图片中的文本识别性能，场景图像包括街景中的标识、广告牌等含有文本的自然图像。 评价指标 ：同样使用编辑距离、F1分数、精确率和召回率等标准。 实验结果 ： GOT在场景文本OCR任务中也表现非常优秀，特别是在中文场景文本上，GOT的编辑距离为0.096，F1分数为0.928，表现远优于其他模型。 该结果证明了GOT模型在处理真实场景中的光学字符时的鲁棒性和适应性。 模型 参数量 编辑距离 (zh) F1分数 (zh) 编辑距离 (en) F1分数 (en) GOT 580M 0.096 0.928 0.112 0.926 Qwen-VL-Max >72B 0.168 0.867 0.182 0.881 InternVL-1.5 26B 0.123 0.913 0.267 0.834 3. 格式化文档OCR性能 任务描述 ：测试GOT在复杂格式文档OCR任务中的表现，文档中包含公式、表格等需要格式化输出的内容。 评价指标 ：使用编辑距离、F1分数、BLEU和METEOR等多种评估标准。 实验结果 ： GOT在单一分辨率（1024×1024）下已表现出色，特别是在公式和表格OCR任务中。通过多重裁剪（multi-crop）方法进一步提高了小文本、公式和表格识别的性能。 在公式识别中，GOT在多重裁剪的情况下F1分数达到0.865，编辑距离为0.159，明显优于单一裁剪结果，证明了动态分辨率的有效性。 类型 编辑距离 F1分数 BLEU METEOR 文档全文本 0.086 0.953 0.896 0.903 公式 0.159 0.865 0.628 0.828 表格 0.220 0.878 0.779 0.811 4. 细粒度OCR性能 任务描述 ：测试GOT在细粒度OCR任务中的表现，用户可以通过指定区域或颜色提示来识别特定区域的字符。 评价指标 ：主要使用编辑距离和F1分数。 实验结果 ： GOT在细粒度OCR任务中的表现明显优于现有的Fox模型，在中文和英文的细粒度文本识别中均达到领先性能。 特别是在区域级OCR任务中，GOT的编辑距离仅为0.041，F1分数高达0.970，展示了其强大的交互式OCR能力。 模型 语言 编辑距离 F1分数 GOT 英文 0.041 0.970 GOT 中文 0.033 0.965 Fox 狐狸 英文 0.059 0.957 Fox 狐狸 中文 0.042 0.955 5. 更多通用OCR性能 任务描述 ：测试GOT在更多通用的OCR任务中的表现，包括乐谱、几何图形、图表等。 评价指标 ：同样使用编辑距离和F1分数来评估模型的性能。 实验结果 ： GOT在乐谱和几何图形等较为复杂的OCR任务中表现依旧优秀，乐谱识别的F1分数为0.963，几何图形识别的F1分数为0.882。 在图表OCR任务中，GOT的表现甚至优于专门为图表设计的模型（如OneChart和ChartVLM），展示了其强大的通用性。 类型 编辑距离 F1分数 乐谱 0.046 0.963 几何图形 0.061 0.882 总结： GOT模型通过在多个OCR任务中的实验表现，证明了其在普通文档OCR、场景文本OCR、格式化文档OCR以及细粒度和通用OCR任务中的强大能力。特别是在编辑距离和F1分数等核心指标上，GOT模型优于许多大型竞争模型，展示了其在OCR-2.0时代的潜力。