Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home AI 工具

Marker :快速准确地将各种文件转换为 Markdown 格式

by 小互
2024年3月7日
in AI 工具, AI 项目
0 0
0
Marker :快速准确地将各种文件转换为 Markdown 格式
0
SHARES
135
VIEWS
Share on FacebookShare on Twitter

Marker 能将 PDF、EPUB 和 MOBI 文件转换成 markdown 格式。它的转换速度是 nougat 的十倍之快,对多数文档的处理更为精确,且几乎不会产生错误的幻觉效果。

主要功能

  1. 支持多种格式:能够将 PDF、EPUB、MOBI文件转换 Markdown 格式。
  2. ⚡ 高速和高准确度:提供快速的转换速度和高准确度,(针对书籍和科学论文进行了优化)速度比 nougat 快 10 倍。
  3. 去除多余元素:自动去除页眉、页脚和其他不必要元素。
  4. 方程转 LaTeX:能够将大多数数学方程转换为 LaTeX 格式,适用于科学和学术文档。
  5. 格式化代码和表格:能够识别并格式化文档中的代码块和表格。
  6. OCR 功能:如果需要,它会使用OCR来处理文档
  7. 支持多种语言:支持多种语言

工作原理

Marker 是基于一系列深度学习模型构建的:

  • 提取文本,必要时使用 OCR 技术(采用启发式算法和 tesseract 工具) – 检测页面布局(使用 [布局分割器](https://huggingface.co/vikp/layout_segmenter…) 和 [列检测器](https://huggingface.co/vikp/column_detector…)
  • 清洗并格式化每一块内容(运用启发式算法和 [nougat](https://huggingface.co/facebook/nougat-base…)
  • 合并这些块并对整体文本进行后期处理(利用启发式算法和 [pdf后处理器](https://huggingface.co/vikp/pdf_postprocessor_t5…) 依赖自回归前向传递来生成文本的方法通常速度较慢,且容易出现重复或虚假内容。
  • 根据 nougat 论文的研究,这种重复现象在测试集的页面中出现的比例为 1.5%,但在非专业领域的文档中,这一比例会更高。根据我的个人测试,非专业领域(非 arXiv)的页面重复率超过了 5%。
  • 尽管 nougat 模型表现出色,但我还是希望找到一个更快、更适用于普通用途的解决方案。Marker 的转换速度是 nougat 的十倍,因为它只对公式块进行 LLM 前向传递处理,所以几乎没有产生错误幻觉的风险。

    项目地址:https://github.com/VikParuchuri/marker

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
482
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
336
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
615
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

IDM-VTON:虚拟试衣技术 能够生成高度真实的虚拟试衣图像

IDM-VTON:虚拟试衣技术 能够生成高度真实的虚拟试衣图像

344 VIEWS
2024年4月25日
Snap 发布第五代 Spectacles  AR 眼镜 内置AI 可通过语音提示直接生成 3D 动画

Snap 发布第五代 Spectacles AR 眼镜 内置AI 可通过语音提示直接生成 3D 动画

262 VIEWS
2024年9月18日
教程:借助伪代码让 ChatGPT 一次生成一套绘本图像

教程:借助伪代码让 ChatGPT 一次生成一套绘本图像

776 VIEWS
2024年6月16日
Command R 系列更新 编码、数学、推理和延迟方面进行了显著提升

Command R 系列更新 编码、数学、推理和延迟方面进行了显著提升

114 VIEWS
2024年9月3日
MeloTTS:支持中英混合发音 的多语言文本到语音(TTS)库

MeloTTS:支持中英混合发音 的多语言文本到语音(TTS)库

333 VIEWS
2024年2月27日
Arc2Face:根据你的独特面部特征生成极为逼真且多样化的人脸图像

Arc2Face:根据你的独特面部特征生成极为逼真且多样化的人脸图像

159 VIEWS
2024年3月30日
VideoSwap:替换视频中的人物、物体 同时保持视频背景不变

VideoSwap:替换视频中的人物、物体 同时保持视频背景不变

981 VIEWS
2024年3月29日
Stability AI 推出Stable Fast 3D 可以在0.5秒内将一张图片变成一个完美的3D模型

Stability AI 推出Stable Fast 3D 可以在0.5秒内将一张图片变成一个完美的3D模型

657 VIEWS
2024年8月2日
DesignEdit:实现统一与精确的图像编辑 操控图像中的各个元素

DesignEdit:实现统一与精确的图像编辑 操控图像中的各个元素

119 VIEWS
2024年4月10日
OutfitAnyone:阿里巴巴开源可以支持任何服装和任何人的高质量虚拟试穿技术

OutfitAnyone:阿里巴巴开源可以支持任何服装和任何人的高质量虚拟试穿技术

295 VIEWS
2024年7月24日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版