XiaoHu.AI学院

No Result

View All Result

Login

XiaoHu.AI学院

No Result

View All Result

Home AI 工具

Marker ：快速准确地将各种文件转换为 Markdown 格式

by 小互

2024年3月7日

in AI 工具, AI 项目

Marker ：快速准确地将各种文件转换为 Markdown 格式

0

SHARES

135

VIEWS

Share on Facebook Share on Twitter

Marker 能将 PDF、EPUB 和 MOBI 文件转换成 markdown 格式。它的转换速度是 nougat 的十倍之快，对多数文档的处理更为精确，且几乎不会产生错误的幻觉效果。

主要功能

支持多种格式：能够将 PDF、EPUB、MOBI文件转换 Markdown 格式。
⚡ 高速和高准确度：提供快速的转换速度和高准确度，（针对书籍和科学论文进行了优化）速度比 nougat 快 10 倍。
去除多余元素：自动去除页眉、页脚和其他不必要元素。
方程转 LaTeX：能够将大多数数学方程转换为 LaTeX 格式，适用于科学和学术文档。
格式化代码和表格：能够识别并格式化文档中的代码块和表格。
OCR 功能：如果需要，它会使用OCR来处理文档
支持多种语言：支持多种语言

工作原理

Marker 是基于一系列深度学习模型构建的：

提取文本，必要时使用 OCR 技术（采用启发式算法和 tesseract 工具） – 检测页面布局（使用 [布局分割器](huggingface.co/vikp/layout_se) 和 [列检测器](huggingface.co/vikp/column_de)
清洗并格式化每一块内容（运用启发式算法和 [nougat](huggingface.co/facebook/nouga)
合并这些块并对整体文本进行后期处理（利用启发式算法和 [pdf后处理器](huggingface.co/vikp/pdf_postp) 依赖自回归前向传递来生成文本的方法通常速度较慢，且容易出现重复或虚假内容。
根据 nougat 论文的研究，这种重复现象在测试集的页面中出现的比例为 1.5%，但在非专业领域的文档中，这一比例会更高。根据我的个人测试，非专业领域（非 arXiv）的页面重复率超过了 5%。
尽管 nougat 模型表现出色，但我还是希望找到一个更快、更适用于普通用途的解决方案。Marker 的转换速度是 nougat 的十倍，因为它只对公式块进行 LLM 前向传递处理，所以几乎没有产生错误幻觉的风险。
项目地址：github.com/VikParuchuri/m

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日

Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

AI 工具

Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日

Anthropic 公布了一种全新的 AI 越狱技术可以轻松破解所有前沿模型

AI 论文

Anthropic 公布了一种全新的 AI 越狱技术可以轻松破解所有前沿模型

2024年12月23日

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

AI 项目

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

2024年12月22日

No Result

View All Result

Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?

Unlock left : 0

Are you sure want to cancel subscription?