Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 资源

MINT-1T:拥有一万亿Token和34亿张图像的多模态数据集

by 小互
2024年7月31日
in AI 资源
0 0
0
MINT-1T:拥有一万亿Token和34亿张图像的多模态数据集
0
SHARES
217
VIEWS
Share on FacebookShare on Twitter

Salesforce AI宣布开源🍃MINT-1T,这是首个拥有一万亿个Token的多模态交织数据集。包含一万亿个文本标记和34亿张图像,比现有开源数据集规模大10倍。此外,还纳入了 PDF 和 ArXiv 论文等之前尚未开发的资源。

多模态交织文档是包含图像和文本的序列结构,能够训练跨图像和文本模式推理的大型多模态模型。

数据集构建原则

  • 规模:MINT-1T的数据量达到一万亿个Token,比之前最大的开源数据集(如 OBELICS 和 MMC4 )扩大了近10倍,这使得研究人员可以训练更大的多模态模型。
  • 多样性:MINT-1T不仅包含HTML文档,还包括PDF文档和ArXiv论文。这些额外的文档来源显著提高了科学文档的覆盖率,丰富了数据集的多样性。

数据集内容

MINT-1T 数据集的构建涉及多种来源的数据收集、处理和过滤步骤,以确保数据的高质量和多样性。

数据来源

  1. HTML 文档:

    • 从 CommonCrawl 中提取 HTML 文档。
    • 处理时间范围从 2017 年 5 月到 2024 年 4 月,使用了 2018 年 10 月到 2024 年 4 月的完整数据和之前年份的部分数据。
    • 过滤条件:排除没有图像或超过30张图像的文档,以及图像URL包含不合适子串(如 logo, avatar, porn, xxx)的文档。
  2. PDF 文档:

    • 从 CommonCrawl WAT 文件中提取 PDF 文档,处理时间范围从 2023 年 2 月到 2024 年 4 月。
    • 使用 PyMuPDF 工具下载和解析 PDF 文件。
    • 过滤条件:排除大于 50MB 或超过 50 页的 PDF,排除没有文本的页面,并根据页面上的文本块和图像的边界框位置来确定图像的插入顺序。
  3. ArXiv 文档:

    • 使用 LaTeX 源代码构建交错文档。
    • 解析 LaTeX 代码中的 figure 标签,将图像与文本交错。
    • 处理多文件论文,识别主文件并清理 LaTeX 代码(如移除导入、参考文献、表格和引用标签)。

数据过滤与去重

  1. 文本质量过滤:

    • 使用 FastText 模型进行语言识别,排除非英语文档。
    • 移除包含不合适子串的 URL(如 NSFW 内容)。
    • 应用来自 RefinedWeb 和 MassiveText 的文本过滤规则,移除重复的 n-grams 和低质量文档。
  2. 图像过滤:

    • 尝试下载所有 HTML 数据集中的图像 URL,移除无法检索的链接。
    • 过滤条件:移除小于 150 像素的图像(避免噪音图像如 logo 和图标)和大于 20,000 像素的图像(通常为无关图像)。
    • 对 HTML 文档,移除长宽比大于 2 的图像;对 PDF 文档,调整阈值为 3 以保留科学图表。
  3. 安全过滤:

    • 应用 NSFW 图像检测器,发现单个 NSFW 图像则移除整个文档。
    • 移除个人可识别信息,如电子邮件地址和 IP 地址,并替换为模板或随机生成的无效 IP。
  4. 去重处理:

    • 使用 Bloom Filter 进行高效的文本去重,设置误报率为 0.01,去重 13-gram 段落。
    • 移除常见的 HTML 噪音句子(如 “Skip to content” 或 “Blog Archive”)。
    • 基于 SHA256 哈希值进行图像去重,移除在一个快照中出现超过十次的图像,以及单个文档中重复的图像。
    • 数据处理期间,平均使用 2350 个 CPU 核心,总共使用约 420 万 CPU 小时构建数据集。

模型实验

  • 预训练:使用MINT-1T预训练了XGen-MM多模态模型,50%的Token来自HTML文档,其余来自PDF和ArXiv文档。
  • 评估:在图像说明和视觉问答基准测试中,使用MINT-1T训练的模型表现优于之前的领先数据集OBELICS。评估结果显示,MINT-1T在保持背景一致性、对象位置合理性和对象相关性与质量方面表现优异。

数据集分析

MINT-1T 数据集在规模、数据来源多样性和质量上都有显著提升。以下是对数据集的详细分析:

1. 文档组成比较

  • 文本标记分布:通过对50,000个文档的随机抽样分析,使用 GPT-2 的标记器计算每个文档的文本标记数量。结果显示,MINT-1T 的 HTML 子集在标记分布上与 OBELICS 相似,但 PDF 和 ArXiv 文档的平均长度明显更长。

  • 图像密度:分析文档中的图像密度发现,MINT-1T 的 PDF 和 ArXiv 文档比 HTML 文档包含更多的图像,其中 ArXiv 样本的图像密度最高。

2. 数据源对文档多样性的提升

  • 领域覆盖:使用 LDA 模型对 100,000 个文档进行主题建模,结果表明,OBELICS 数据集的文档主要集中在人文学科和社会科学,而 MINT-1T 的 HTML 子集则表现出更广泛的领域覆盖,PDF 子集则主要集中在科学和技术领域。

3. 上下文学习性能

  • 演示示例数量的影响:评估模型在使用 1 到 8 个示例时的上下文学习性能,结果显示,基于 MINT-1T 训练的模型在所有示例数量上都优于基线模型 OBELICS。

4. 不同任务上的表现

  • 图像字幕生成和视觉问答:在图像字幕生成任务中,OBELICS 数据集表现更好,而在视觉问答任务中,MINT-1T 数据集显著优于其他基线。

  • 不同领域的表现:在多学科多模态理解和推理基准(MMMU)上的性能分析显示,MINT-1T 在科学和技术领域的表现显著优于 OBELICS 和 MINT-1T 的 HTML 子集。

5. 影响模型架构的性能

  • XGen-MM 和 Idefics2 实验:使用不同的模型架构(XGen-MM 和 Idefics2)进行实验,结果显示,Idefics2 架构下的 MINT-1T (HTML) 在图像字幕生成和视觉问答任务上表现优异。

总结

通过以上分析,可以看出 MINT-1T 数据集在多样性、质量和规模上都显著优于现有的开源数据集,尤其在科学和技术领域表现突出。基于 MINT-1T 训练的模型在多模态任务中的表现优越,为未来的多模态研究提供了坚实的基础和丰富的资源。

Paper | Datasaset | Blog Post

来源:https://blog.salesforceairesearch.com/mint-1t

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
473
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
329
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
440
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
275
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
602
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
422

Recommendeds

DesignEdit:实现统一与精确的图像编辑 操控图像中的各个元素

DesignEdit:实现统一与精确的图像编辑 操控图像中的各个元素

119 VIEWS
2024年4月10日
Chinese Tiny LLM:从头开始训练 专注于中文的大语言模型

Chinese Tiny LLM:从头开始训练 专注于中文的大语言模型

682 VIEWS
2024年4月8日
Nothing公司将ChatGPT引入其新款无线耳机中 可召唤ChatGPT

Nothing公司将ChatGPT引入其新款无线耳机中 可召唤ChatGPT

164 VIEWS
2024年4月20日
GitHub 发布 Copilot Workspace 可通过自然语言编程并测试和运行代码

GitHub 发布 Copilot Workspace 可通过自然语言编程并测试和运行代码

569 VIEWS
2024年4月30日
Google DeepMind 将Gemini 1.5 Pro安装到机器人上 实现机器人的记忆导航能力

Google DeepMind 将Gemini 1.5 Pro安装到机器人上 实现机器人的记忆导航能力

164 VIEWS
2024年7月12日
美国14岁少年与Character.AI 聊天机器产生了强烈的情感依附 开枪自杀身亡

美国14岁少年与Character.AI 聊天机器产生了强烈的情感依附 开枪自杀身亡

728 VIEWS
2024年10月23日
一种革命性的开源系统 现在你可以在家训练一个70B的大语言模型了

一种革命性的开源系统 现在你可以在家训练一个70B的大语言模型了

42 VIEWS
2024年3月11日
OminiControl:基于FLUX.1的通用的控制框架 通过参考图像来控制图像生成的结果

OminiControl:基于FLUX.1的通用的控制框架 通过参考图像来控制图像生成的结果

267 VIEWS
2024年11月26日
X.AI 宣布推出了:Grok-1.5 128k 上下文长度,即将在𝕏上进行提供

X.AI 宣布推出了:Grok-1.5 128k 上下文长度,即将在𝕏上进行提供

33 VIEWS
2024年3月29日
斯坦福大学推出一种上下文向量(ICV)新方法 提高模型微调效率和可扩展性

斯坦福大学推出一种上下文向量(ICV)新方法 提高模型微调效率和可扩展性

74 VIEWS
2024年7月14日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版