The Pile: 用于语言模型的800GB多样化文本数据集

The Pile是一个由EleutherAI提供的825 GiB大小的多样化、开源语言建模数据集，它由22个较小的、高质量的数据集组合而成。这个数据集的目的是为了提高大型模型的跨域知识以及下游泛化能力，通过增加数据来源的多样性来实现。模型在The Pile上的训练不仅在传统的语言建模基准测试中表现出适度的改进，而且在Pile BPB（每字节比特数）上也显示出显著的改进，这是一个衡量模型在不同领域（包括书籍、GitHub仓库、网页、聊天记录、医学、物理、数学、计算机科学和哲学论文）理解能力的指标。 数据集特点 庞大的规模 ：总计达825.18GiB的数据量，提供了一个极为丰富的文本资源，用于训练大规模语言模型。

多样化的数据来源 ：包括22个不同的子数据集，源自各种不同的领域和场景，如学术论文、法律文件、开源代码、互联网内容等，确保了数据集的广泛覆盖面。

高质量的文本 ：每个组成部分都是精心挑选的高质量数据源，旨在提升模型训练的有效性和可靠性。

跨域知识与泛化能力 ：通过将多个高质量、多样化的数据集混合在一起，The Pile旨在提高模型的跨域知识和下游任务的泛化能力。

为大型模型设计 ：特别针对训练大规模语言模型的需求而设计，支持在当前和未来的NLP研究中开展深入的模型训练和实验。

研究与评估工具 ：除了作为训练材料外，The Pile还可用作广泛的基准测试，以评估语言模型的跨领域知识和泛化能力。

扩展性 ：通过引入新的子数据集，如OpenWebText2和BookCorpus2，以及多个现有的高质量数据集，显示了数据集在未来的扩展潜力和适应性。 包含的内容 这些数据集来源包括PubMed Central、ArXiv、GitHub、FreeLaw Project、Stack Exchange、美国专利商标局、PubMed、Ubuntu IRC、HackerNews、YouTube、PhilPapers、NIH ExPorter等，以及新引入的OpenWebText2和BookCorpus2。此外，还纳入了几个现有的高质量数据集，如Books3、Project Gutenberg、OpenSubtitles、英文维基百科、DM Mathematics、EuroParl和Enron Emails语料库。 The Pile数据集包含来自以下领域的文本内容，展示了其内容的广泛性和多样性： PubMed Central ：生物医学文章的全文，提供丰富的医学和生物学知识。 ArXiv ：涵盖数学、物理学、计算机科学等领域的学术论文。 GitHub ：开源代码仓库，包含大量编程和软件开发相关的文本。 FreeLaw Project ：法律文件，涉及美国的法律案例和判决。 Stack Exchange ：一个问题回答平台的数据，覆盖编程、科学、生活等多个主题。 美国专利商标局(USPTO) ：专利文件，包含技术发明和创新的描述。 PubMed ：生物医学文摘数据库，提供广泛的医学摘要。 Ubuntu IRC ：聊天记录，反映实时人类交流和协作。 HackerNews ：新闻和技术讨论平台，包含科技领域的文章和讨论。 YouTube ：视频字幕，来源于各种教育和娱乐视频。 PhilPapers ：哲学论文集，覆盖广泛的哲学话题和讨论。 NIH ExPorter ：国立卫生研究院的研究资助摘要，涉及各类生物医学研究项目。 OpenWebText2 和 BookCorpus2 ：分别是互联网上的文本和未出版作者的书籍，增加了数据集的多样性和广度。 Books3 、 Project Gutenberg 、 OpenSubtitles 、 英文维基百科 、 DM Mathematics 、 EuroParl 、 Enron Emails ：这些已存在的高质量数据集提供了从古典文学到现代电影字幕、从数学问题到欧洲议会记录、从维基百科条目到商业电子邮件的广泛内容。 详细： https://pile.eleuther.ai/ 论文： https://arxiv.org/abs/2101.00027 下载： DOWNLOAD PILE