Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 资源

MINT-1T:拥有一万亿Token和34亿张图像的多模态数据集

by 小互
2024年7月31日
in AI 资源
0 0
0
MINT-1T:拥有一万亿Token和34亿张图像的多模态数据集
0
SHARES
217
VIEWS
Share on FacebookShare on Twitter

Salesforce AI宣布开源🍃MINT-1T,这是首个拥有一万亿个Token的多模态交织数据集。包含一万亿个文本标记和34亿张图像,比现有开源数据集规模大10倍。此外,还纳入了 PDF 和 ArXiv 论文等之前尚未开发的资源。

多模态交织文档是包含图像和文本的序列结构,能够训练跨图像和文本模式推理的大型多模态模型。

数据集构建原则

  • 规模:MINT-1T的数据量达到一万亿个Token,比之前最大的开源数据集(如 OBELICS 和 MMC4 )扩大了近10倍,这使得研究人员可以训练更大的多模态模型。
  • 多样性:MINT-1T不仅包含HTML文档,还包括PDF文档和ArXiv论文。这些额外的文档来源显著提高了科学文档的覆盖率,丰富了数据集的多样性。

数据集内容

MINT-1T 数据集的构建涉及多种来源的数据收集、处理和过滤步骤,以确保数据的高质量和多样性。

数据来源

  1. HTML 文档:

    • 从 CommonCrawl 中提取 HTML 文档。
    • 处理时间范围从 2017 年 5 月到 2024 年 4 月,使用了 2018 年 10 月到 2024 年 4 月的完整数据和之前年份的部分数据。
    • 过滤条件:排除没有图像或超过30张图像的文档,以及图像URL包含不合适子串(如 logo, avatar, porn, xxx)的文档。
  2. PDF 文档:

    • 从 CommonCrawl WAT 文件中提取 PDF 文档,处理时间范围从 2023 年 2 月到 2024 年 4 月。
    • 使用 PyMuPDF 工具下载和解析 PDF 文件。
    • 过滤条件:排除大于 50MB 或超过 50 页的 PDF,排除没有文本的页面,并根据页面上的文本块和图像的边界框位置来确定图像的插入顺序。
  3. ArXiv 文档:

    • 使用 LaTeX 源代码构建交错文档。
    • 解析 LaTeX 代码中的 figure 标签,将图像与文本交错。
    • 处理多文件论文,识别主文件并清理 LaTeX 代码(如移除导入、参考文献、表格和引用标签)。

数据过滤与去重

  1. 文本质量过滤:

    • 使用 FastText 模型进行语言识别,排除非英语文档。
    • 移除包含不合适子串的 URL(如 NSFW 内容)。
    • 应用来自 RefinedWeb 和 MassiveText 的文本过滤规则,移除重复的 n-grams 和低质量文档。
  2. 图像过滤:

    • 尝试下载所有 HTML 数据集中的图像 URL,移除无法检索的链接。
    • 过滤条件:移除小于 150 像素的图像(避免噪音图像如 logo 和图标)和大于 20,000 像素的图像(通常为无关图像)。
    • 对 HTML 文档,移除长宽比大于 2 的图像;对 PDF 文档,调整阈值为 3 以保留科学图表。
  3. 安全过滤:

    • 应用 NSFW 图像检测器,发现单个 NSFW 图像则移除整个文档。
    • 移除个人可识别信息,如电子邮件地址和 IP 地址,并替换为模板或随机生成的无效 IP。
  4. 去重处理:

    • 使用 Bloom Filter 进行高效的文本去重,设置误报率为 0.01,去重 13-gram 段落。
    • 移除常见的 HTML 噪音句子(如 “Skip to content” 或 “Blog Archive”)。
    • 基于 SHA256 哈希值进行图像去重,移除在一个快照中出现超过十次的图像,以及单个文档中重复的图像。
    • 数据处理期间,平均使用 2350 个 CPU 核心,总共使用约 420 万 CPU 小时构建数据集。

模型实验

  • 预训练:使用MINT-1T预训练了XGen-MM多模态模型,50%的Token来自HTML文档,其余来自PDF和ArXiv文档。
  • 评估:在图像说明和视觉问答基准测试中,使用MINT-1T训练的模型表现优于之前的领先数据集OBELICS。评估结果显示,MINT-1T在保持背景一致性、对象位置合理性和对象相关性与质量方面表现优异。

数据集分析

MINT-1T 数据集在规模、数据来源多样性和质量上都有显著提升。以下是对数据集的详细分析:

1. 文档组成比较

  • 文本标记分布:通过对50,000个文档的随机抽样分析,使用 GPT-2 的标记器计算每个文档的文本标记数量。结果显示,MINT-1T 的 HTML 子集在标记分布上与 OBELICS 相似,但 PDF 和 ArXiv 文档的平均长度明显更长。

  • 图像密度:分析文档中的图像密度发现,MINT-1T 的 PDF 和 ArXiv 文档比 HTML 文档包含更多的图像,其中 ArXiv 样本的图像密度最高。

2. 数据源对文档多样性的提升

  • 领域覆盖:使用 LDA 模型对 100,000 个文档进行主题建模,结果表明,OBELICS 数据集的文档主要集中在人文学科和社会科学,而 MINT-1T 的 HTML 子集则表现出更广泛的领域覆盖,PDF 子集则主要集中在科学和技术领域。

3. 上下文学习性能

  • 演示示例数量的影响:评估模型在使用 1 到 8 个示例时的上下文学习性能,结果显示,基于 MINT-1T 训练的模型在所有示例数量上都优于基线模型 OBELICS。

4. 不同任务上的表现

  • 图像字幕生成和视觉问答:在图像字幕生成任务中,OBELICS 数据集表现更好,而在视觉问答任务中,MINT-1T 数据集显著优于其他基线。

  • 不同领域的表现:在多学科多模态理解和推理基准(MMMU)上的性能分析显示,MINT-1T 在科学和技术领域的表现显著优于 OBELICS 和 MINT-1T 的 HTML 子集。

5. 影响模型架构的性能

  • XGen-MM 和 Idefics2 实验:使用不同的模型架构(XGen-MM 和 Idefics2)进行实验,结果显示,Idefics2 架构下的 MINT-1T (HTML) 在图像字幕生成和视觉问答任务上表现优异。

总结

通过以上分析,可以看出 MINT-1T 数据集在多样性、质量和规模上都显著优于现有的开源数据集,尤其在科学和技术领域表现突出。基于 MINT-1T 训练的模型在多模态任务中的表现优越,为未来的多模态研究提供了坚实的基础和丰富的资源。

Paper | Datasaset | Blog Post

来源:https://blog.salesforceairesearch.com/mint-1t

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
473
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
329
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
441
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
276
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
602
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
422

Recommendeds

OOTDiffusion:支持半身、全身的开源的高分辨率虚拟试穿模型

OOTDiffusion:支持半身、全身的开源的高分辨率虚拟试穿模型

297 VIEWS
2024年11月24日
根据单张图像和音频输入生成唱歌和说话视频,并能控制人物表情和姿态

根据单张图像和音频输入生成唱歌和说话视频,并能控制人物表情和姿态

263 VIEWS
2024年6月17日
E5-V:多模态大语言模型的通用嵌入 统一不同模态的“嵌入表示”

E5-V:多模态大语言模型的通用嵌入 统一不同模态的“嵌入表示”

79 VIEWS
2024年7月22日
TRANSAGENTS: 一个专门用于进行文学翻译的多智能体虚拟翻译出版公司

TRANSAGENTS: 一个专门用于进行文学翻译的多智能体虚拟翻译出版公司

817 VIEWS
2024年5月23日
特斯拉We Robot 发布会全纪录:完全无人驾驶出租车、Optimus 机器人、Robovan(机器人巴士)

特斯拉We Robot 发布会全纪录:完全无人驾驶出租车、Optimus 机器人、Robovan(机器人巴士)

306 VIEWS
2024年10月11日
微软发布了10个全新的自主AI代理 可以处理客户查询的“人工智能员工”

微软发布了10个全新的自主AI代理 可以处理客户查询的“人工智能员工”

352 VIEWS
2024年10月22日
O-one :通过语音操控你的电脑 一个开源语言模型计算机

O-one :通过语音操控你的电脑 一个开源语言模型计算机

139 VIEWS
2024年3月22日
Qwen推出专门的数学语言模型:Qwen2-Math 超越GPT-4o、Claude-3.5

Qwen推出专门的数学语言模型:Qwen2-Math 超越GPT-4o、Claude-3.5

227 VIEWS
2024年8月9日
SAMURAI:无需训练 能够在实时动态、复杂的视频场景中跟踪目标的模型

SAMURAI:无需训练 能够在实时动态、复杂的视频场景中跟踪目标的模型

246 VIEWS
2024年11月25日
Prompt 学习地图 04 | 编写清晰的说明 – 示例的重要作用

Prompt 学习地图 04 | 编写清晰的说明 – 示例的重要作用

125 VIEWS
2024年3月25日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

- Select Visibility -

    No Result
    View All Result
    • Home
    • AI 工具
    • XiaoHu.AI 学院
      • AI 教程
      • AI 课程
    • XiaoHu.AI日报
    • 开源项目案例库
      • AI 论文
      • AI 资源
      • AI 项目
    • 加入会员
    • →社群
    • Login

    © 2024 Xiaohu.AI

    Are you sure want to unlock this post?
    Unlock left : 0
    Are you sure want to cancel subscription?
    转到手机版