Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home AI 工具

Marker :快速准确地将各种文件转换为 Markdown 格式

by 小互
2024年3月7日
in AI 工具, AI 项目
0 0
0
Marker :快速准确地将各种文件转换为 Markdown 格式
0
SHARES
135
VIEWS
Share on FacebookShare on Twitter

Marker 能将 PDF、EPUB 和 MOBI 文件转换成 markdown 格式。它的转换速度是 nougat 的十倍之快,对多数文档的处理更为精确,且几乎不会产生错误的幻觉效果。

主要功能

  1. 支持多种格式:能够将 PDF、EPUB、MOBI文件转换 Markdown 格式。
  2. ⚡ 高速和高准确度:提供快速的转换速度和高准确度,(针对书籍和科学论文进行了优化)速度比 nougat 快 10 倍。
  3. 去除多余元素:自动去除页眉、页脚和其他不必要元素。
  4. 方程转 LaTeX:能够将大多数数学方程转换为 LaTeX 格式,适用于科学和学术文档。
  5. 格式化代码和表格:能够识别并格式化文档中的代码块和表格。
  6. OCR 功能:如果需要,它会使用OCR来处理文档
  7. 支持多种语言:支持多种语言

工作原理

Marker 是基于一系列深度学习模型构建的:

  • 提取文本,必要时使用 OCR 技术(采用启发式算法和 tesseract 工具) – 检测页面布局(使用 [布局分割器](https://huggingface.co/vikp/layout_segmenter…) 和 [列检测器](https://huggingface.co/vikp/column_detector…)
  • 清洗并格式化每一块内容(运用启发式算法和 [nougat](https://huggingface.co/facebook/nougat-base…)
  • 合并这些块并对整体文本进行后期处理(利用启发式算法和 [pdf后处理器](https://huggingface.co/vikp/pdf_postprocessor_t5…) 依赖自回归前向传递来生成文本的方法通常速度较慢,且容易出现重复或虚假内容。
  • 根据 nougat 论文的研究,这种重复现象在测试集的页面中出现的比例为 1.5%,但在非专业领域的文档中,这一比例会更高。根据我的个人测试,非专业领域(非 arXiv)的页面重复率超过了 5%。
  • 尽管 nougat 模型表现出色,但我还是希望找到一个更快、更适用于普通用途的解决方案。Marker 的转换速度是 nougat 的十倍,因为它只对公式块进行 LLM 前向传递处理,所以几乎没有产生错误幻觉的风险。

    项目地址:https://github.com/VikParuchuri/marker

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
338
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
450
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
279
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
617
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
429

Recommendeds

Runway 推出一款生成式角色表演工具 可以把视频转换成任意风格虚拟角色动画 并且保持表情语音口型同步

Runway 推出一款生成式角色表演工具 可以把视频转换成任意风格虚拟角色动画 并且保持表情语音口型同步

471 VIEWS
2024年10月23日
超200位知名音乐人签署公开信 呼吁阻止AI对人类创造力的攻击

超200位知名音乐人签署公开信 呼吁阻止AI对人类创造力的攻击

255 VIEWS
2024年4月3日
微软发布 Azure AI 高清语音模型 能理解文本背后的情感 并实时调整语音语调和情感表达

微软发布 Azure AI 高清语音模型 能理解文本背后的情感 并实时调整语音语调和情感表达

655 VIEWS
2024年10月1日
ChatGPT 即将更新的功能曝光 新版界面、免费用户也可创建GPTs

ChatGPT 即将更新的功能曝光 新版界面、免费用户也可创建GPTs

587 VIEWS
2024年4月24日
PaintsUndo:输入静态图像 自动帮你生成整个绘画的全过程视频

PaintsUndo:输入静态图像 自动帮你生成整个绘画的全过程视频

853 VIEWS
2024年7月9日
VideoDoodles:在视频中轻松任意的插入手绘动画 并与视频内容无缝融合

VideoDoodles:在视频中轻松任意的插入手绘动画 并与视频内容无缝融合

1.1k VIEWS
2024年8月11日
Nothing公司将ChatGPT引入其新款无线耳机中 可召唤ChatGPT

Nothing公司将ChatGPT引入其新款无线耳机中 可召唤ChatGPT

164 VIEWS
2024年4月20日
VSR:利用AI算法精确识别 一键去除视频中的字幕

VSR:利用AI算法精确识别 一键去除视频中的字幕

961 VIEWS
2024年4月20日
GPT-Academic:专门针对论文阅读、写作润色优化的学术GPT

GPT-Academic:专门针对论文阅读、写作润色优化的学术GPT

832 VIEWS
2024年4月20日
ElevenLabs 发布Turbo 2.5模型 速度提高了3倍 支持中文等32种语言

ElevenLabs 发布Turbo 2.5模型 速度提高了3倍 支持中文等32种语言

201 VIEWS
2024年7月20日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版