JetMoE-8B：不到10万美元的训练成本性能却超越LLaMA2-7B

JetMoE-8B 是一个高性能的大语言模型，它以不到10万美元的成本训练，性能超过了Meta AI的LLaMA2-7B模型，后者拥有数十亿美元的训练资源。这表明训练大语言模型(LLMs)的成本可以远低于普遍预期。 模型利用公开数据集进行训练，任何实验室都能以较低成本进行模型微调。JetMoE-8B采用了一种稀疏激活的架构，使其在执行任务时只激活必要的参数，从而降低了运行成本。 技术细节 JetMoE采用稀疏激活架构，灵感来自ModuleFormer。JetMoE-8B包含24个块，每个块包含两个MoE层：注意力头混合（MoA）和MLP专家混合（MoE）。每个MoA和MoE层有8个专家，并且每个输入令牌激活2个专家。 JetMoE-8B的总参数量为80亿，训练数据为1.25万亿令牌，来源于公开可用的数据集。 具体方法：

稀疏门控混合专家（SMoE）架构 ：JetMoE-8B采用了一种基于MoE（Mixture of Experts）的架构，这种架构可以在不牺牲性能的情况下显著降低计算成本。在JetMoE-8B中，每个输入令牌只激活部分专家（expert），从而减少了总体的计算需求。具体来说，尽管总参数量为80亿，但每个输入令牌仅激活约22亿参数。 模块化设计 ：JetMoE-8B使用了由多个独立模块组成的架构，每个模块包含注意力机制和前馈网络（FFN）层，而每层又实现了基于专家的混合（MoE）。这种设计允许在每次推理时只激活一部分参数，减少了必须处理的数据量，从而节省了计算资源。 双层稀疏激活 ：JetMoE在注意力和前馈网络层都实现了稀疏激活，不同于传统的只在前馈层使用MoE的做法。这意味着在处理每个输入时，只有选定的“专家”参与计算，大大减少了操作的复杂度和所需的计算资源。 高效的训练策略 ：采用了有效的训练方法，如使用常数学习率预热和后期使用指数衰减学习率，以及精心设计的数据混合策略来优化模型训练。这种策略帮助模型在不同阶段集中学习最有价值的数据，从而提高学习效率和最终模型的性能。 数据选择 ：该模型完全使用公开可获取的数据集进行训练，避免了昂贵的数据采购成本。这包括从网站、学术论文、编程代码等多种来源收集的大量数据，这些数据来源都是免费或开源的。 两阶段训练法 ：第一阶段使用大量的开源数据进行预训练，设置一个恒定的学习率以及线性预热期；第二阶段则转向更具挑战性的数据集，采用指数衰减的学习率，以提高模型在特定任务上的表现。 优化的数据混合 ：在训练过程中，通过精心设计的数据混合策略来优化模型的学习，强调了从高质量数据中学习的重要性，特别是在学习率衰减阶段增加了这些数据的比重。 GPU优化和成本控制 ：项目组利用了高效的硬件配置，通过有限的GPU资源（30,000 H100 GPU小时）进行训练，同时优化了模型训练的时间和资源使用，确保了成本效益。 GPU使用优化 ：尽管训练了一个拥有数十亿参数的模型，项目组通过有效管理GPU使用时间（30,000小时H100 GPU），控制了训练成本。这包括了对训练任务的调度优化，使得每个GPU都能在最大效率下运行。 并行处理和负载平衡 ：采用流水线并行处理技术优化训练过程，减少了因专家不平衡导致的计算资源浪费。此外，通过在模型的不同部分之间均匀分配计算任务，确保了资源的充分利用。 训练情况 1. 预训练数据源 JetMoE-8B使用了广泛的开源数据集进行预训练，这些数据集包括： RefinedWeb : 从公共网页数据中提取的高质量文本数据，该数据通过MacroData Refinement (MDR)流程进行优化处理，以提升数据质量。 The Pile : 包含多种类型的数据，如Wikipedia文章、科学论文(arXiv)、开源图书等，总量达到825GB，涵盖广泛的知识领域和语言使用场景。 Code Datasets : 包括从GitHub上收集的各种编程语言的源代码，这些数据帮助模型理解和生成编程相关的内容。 Math and Scientific Data : 特别包括用于数学和科学问题解答的数据集，如数学问题集和科学文档。 2. 训练策略 JetMoE-8B的训练采用了两阶段方法，优化了学习过程中的数据使用和参数调整： 第一阶段（Warmup and Stable Learning Rate） : 使用大规模开源数据进行训练，目的是让模型掌握广泛的语言结构和知识。 应用线性预热和恒定学习率，使模型在初期可以稳定地适应各种语言模式。 第二阶段（Exponential Decay Learning Rate） : 在这一阶段，模型使用从第一阶段训练中筛选的高质量数据进行微调。 采用指数衰减学习率，加强模型在特定任务（如编程、数学问题解答）上的表现。 增加高质量数据的比重，这些数据通常来自更具挑战性的语言使用场景，能够进一步提升模型的性能。 3. GPU资源管理和优化 GPU时长管理 ：训练过程中使用了30,000 H100 GPU小时，通过精确控制每个训练阶段的GPU使用时长和任务调度，确保成本效益。 Pipeline并行处理 ：采用pipeline并行策略优化训练过程，减少了因数据传输和处理延时造成的资源浪费。 性能评估 在与Open LLM排行榜相同的评估方法下，JetMoE-8B的性能甚至超过了LLaMA2-7B、LLaMA-13B和DeepseekMoE-16B。与具有类似训练和推理计算的模型（如Gemma-2B）相比，JetMoE-8B展示了更优异的表现。 完全开源 JetMoE-8B的代码和训练过程完全开源，包括详细的技术报告和训练细节，数据处理、模型架构和训练策略等， Github: https://github.com/myshell-ai/JetMoE HuggingFace: https://huggingface.co/jetmoe/jetmoe-8b Chat Demo on Lepton AI: https://www.lepton.ai/playground/chat?model=jetmoe-8b-chat 技术报告： https://arxiv.org/pdf/2404.07413.pdf

Menu

分类目录

JetMoE-8B：不到10万美元的训练成本性能却超越LLaMA2-7B

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

Anthropic 公布了一种全新的 AI 越狱技术可以轻松破解所有前沿模型

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

Recommendeds

GenWarp：只需一张图像即可生成该图像不同视角的新图像

Gemini 推出了专门提升学生的学习体验新功能 5 种帮助学生更聪明地学习的方法

OpenAI 发布 GPT-4o全能模型实时语音和视觉能力再次刷新业界

Runway Act-One 使用教程：仅通过单个视频和任意角色图像生成生动的表演动画

Proofread：利用大语言模型自动修正键盘输入的文本错误提升打字体验

VoiceCraft：无样本文本到语音转换和语音编辑模型

Newton：能理解和推理物理世界的模型实时了解真实世界

DisTrO：用你的家用电脑完成的去中心化人工智能训练

Bing 推出生成式AI搜索功能根据用户的查询提供量身定制的动态响应结果

MIMO：给定一个参考图像、视频几分钟即可生成一个可以控制动作和场景的动画人物

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Menu

分类目录

JetMoE-8B：不到10万美元的训练成本 性能却超越LLaMA2-7B

Support authors and subscribe to content

加入会员

Related Posts

Recommendeds

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

JetMoE-8B：不到10万美元的训练成本性能却超越LLaMA2-7B