Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home AI 工具

Jina AI Reader 工具能够从任意 URL 读取 PDF 文件 并快速解析成文本

by 小互
2024年5月31日
in AI 工具
0 0
0
Jina AI Reader 工具能够从任意 URL 读取 PDF 文件 并快速解析成文本
0
SHARES
497
VIEWS
Share on FacebookShare on Twitter

Jina AI 宣布其 Reader 工具现在能够从任意 URL 读取 PDF 文件,并快速解析成文本,供下游的语言模型(LLM)使用。

只需将PDF的URL添加到http://r.jina.ai前缀,如 这个例子,(https://r.jina.ai/https://www.nasa.gov/wp-content/uploads/2023/01/55583main_vision_space_exploration2.pdf)即可获得已解析好的文本,供下游的语言模型(LLM)使用。Reader原生支持PDF读取,兼容大多数PDF文件,包括含有大量图片的文件,而且解析速度非常快!

之前,该工具的 PDF 支持仅限于 arXiv 并依赖于其 HTML 版本。解析 PDF 的过程复杂,需要渲染 URL 确认其是否为 PDF,并且将其转换为清晰的文本通常需要 OCR 技术。现在,Jina Reader 提供了这一免费的新功能,提升了 LLM 的文本处理能力。

  • Jina AI Reader 现在支持从任何 URL 读取任意 PDF。
  • 只需添加 PDF 的 URL 即可获得解析好的文本,供下游的 LLM 使用。
  • Reader 本地支持 PDF 阅读,包括带有大量图片的 PDF,并且速度极快。
  • 之前的 PDF 支持仅限于 arXiv,并依赖 arXiv 提供的 HTML 版本。
  • 正确解析 PDF 并不容易,需要渲染 URL 以确定其是否为 PDF。
  • PDF 设计用于打印,不适合直接子处理,转换为干净的文本通常需要 OCR。
  • 这个新功能现在在 Jina Reader 中免费提供。
X2Twitter.com_1796243593364930561(720p)
  1. URL判断PDF的难度:
    • 仅通过URL是否以“.pdf”结尾来判断其是否为PDF是不可靠的。
    • 有些URL虽然看起来像PDF但不是,有些则反之,例如arXiv的链接(示例链接),该链接并不以“.pdf”结尾,但返回的是PDF。
    • 因此,需要先渲染URL并相应地处理它。由于浏览器无法原生渲染PDF内容,因此需要使用像pdf.js这样的工具来渲染页面。
  2. PDF的复杂性:
    • 许多人忘记了PDF是为打印设计的,而不是为子处理设计的。
    • PDF中的图像、文本和表格各自在自己的层中,没有任何关联,仅仅出现在特定位置以呈现最终布局。
    • 可以将其类比为HTML中的一堆<div>元素,每个元素都由上、左、右和下的绝对位置定义。
    • 将它们转换为干净的、适合LLM阅读的文本通常需要使用OCR来识别图像,类似于将扫描的纸质书籍转换为电子文本。

Jina AI Reader 读取任意 PDF 的详细步骤

  1. 准备 PDF URL:
    • 找到你想要读取的 PDF 文件的 URL。例如:https://example.com/sample.pdf
  2. 添加 URL 到 Jina Reader:
    • 将 PDF 的 URL 添加到 Jina Reader 中。只需将 URL 粘贴到指定的输入框中。
    • 或者http://r.jina.ai后+https://example.com/sample.pdf
  3. 解析 PDF:
    • Jina Reader 会自动解析你提供的 URL,并将其中的内容提取出来。这包括处理图像、文本和表格等内容。
    • 由于无法仅通过 URL 判断其是否为 PDF,Jina Reader 使用 pdf.js 来渲染页面,从而准确解析内容。
  4. 查看解析结果:
    • 一旦解析完成,你可以查看提取出来的文本内容。这些文本已经过处理,适合下游的语言模型(LLM)使用。
  5. 处理嵌入 PDF 的特殊情况:
    • 如果网页中嵌入了多个 PDF 或 PDF 嵌入在 HTML 中,Jina Reader 也能正确处理并解析这些内容。
  6. 应对复杂的 PDF 格式:
    • 对于包含大量图片或复杂布局的 PDF,Jina Reader 使用 OCR 技术来识别图像中的文本,确保内容的完整性和准确性。
  7. 使用解析好的文本:
    • 解析好的文本可以用于你的语言模型、数据分析或其他下游应用。这些文本是经过优化的,便于进一步处理和使用。

Jina AI Reader:https://jina.ai/reader/

Jina AI Reader详细介绍:

Jina-ai/Reader:将任何网页URL转换为大语言模型友好的输入格式

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

MINT-1T:拥有一万亿Token和34亿张图像的多模态数据集

MINT-1T:拥有一万亿Token和34亿张图像的多模态数据集

217 VIEWS
2024年7月31日
TurboEdit:基于文本的即时图像编辑 保持图像整体不变的情况下 实时修改特定区域

TurboEdit:基于文本的即时图像编辑 保持图像整体不变的情况下 实时修改特定区域

251 VIEWS
2024年8月19日
特斯拉正在招聘人员来进行Optimus机器人训练工作 时薪48美金

特斯拉正在招聘人员来进行Optimus机器人训练工作 时薪48美金

247 VIEWS
2024年8月21日
OpenAI 宣布推出Whisper large-v3-turbo 语音转录模型 速度提高了8倍

OpenAI 宣布推出Whisper large-v3-turbo 语音转录模型 速度提高了8倍

554 VIEWS
2024年10月2日
AnchorCrafter:自动生成具有主播风格的产品宣传视频 解决了人-物交互控制

AnchorCrafter:自动生成具有主播风格的产品宣传视频 解决了人-物交互控制

602 VIEWS
2024年12月1日
MeloTTS: 高质量多语言文本转语音(TTS)库 支持中英混合

MeloTTS: 高质量多语言文本转语音(TTS)库 支持中英混合

226 VIEWS
2024年3月11日
Cognition 的 AI工程师 Devin 正式推出 500美金一个月

Cognition 的 AI工程师 Devin 正式推出 500美金一个月

293 VIEWS
2024年12月11日
MultiOn 推出了一种类似Q*的新型自主 AI 代理 Agent Q 可以自我学习进化

MultiOn 推出了一种类似Q*的新型自主 AI 代理 Agent Q 可以自我学习进化

282 VIEWS
2024年8月14日
Seed-TTS:由字节跳动开发的几乎完美接近人类的文本到语音(TTS)模型

Seed-TTS:由字节跳动开发的几乎完美接近人类的文本到语音(TTS)模型

2.3k VIEWS
2024年6月7日
微软发布最强 AI 电脑:Copilot+ PC 能听、能看、能说 而且能记住你一切

微软发布最强 AI 电脑:Copilot+ PC 能听、能看、能说 而且能记住你一切

727 VIEWS
2024年5月21日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版