Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

将Llama-3 的上下文长度从8K扩展到超过100万

by 小互
2024年5月5日
in XiaoHu.AI日报
0 0
0
将Llama-3 的上下文长度从8K扩展到超过100万
0
SHARES
298
VIEWS
Share on FacebookShare on Twitter
Gradient AI最近将Llama-3 8B和7B模型通过渐进式训练方法不断将Llama-3模型的上下文长度从8k一路扩展到262k、524k
 
今天Gradient AI成功宣布成功地将Llama-3 系列模型的上下文长度扩展到超过1M…并且1M上下文窗口 70B 模型在 NIAH (大海捞针)上取得了完美分数。

Llama 3模型最初被训练用于处理8000个令牌的默认上下文长度,约相当于6,000字或10页文档。

 
Gradient为了解锁更长上下文的使用场景,扩展了Llama 3模型的上下文窗口到超过100万。这种扩展使得模型可以处理相当于《哈利·波特》系列前五本书的内容量。
这种扩展显著增加了模型处理长文本的能力,允许它在一个任务中考虑更多的信息,从而提高了理解和生成文本的精确度和相关性。

为了逐步适应这种大幅度增加的上下文长度,Gradient AI采用了渐进式训练方法。这意味着模型从较短的序列长度开始训练,逐渐增加到目标长度。这种方法有助于模型逐步学习处理更长文本的策略,而不是一开始就直接面对极大的挑战。

方法概述

  1. 渐进式训练(Progressive Training):

    • 步骤:模型从处理较短的文本序列开始,逐步增加处理的序列长度。这种渐进式增长使模型能够适应在每个步骤中的学习挑战,从而逐步提高处理更长序列的能力。
    • 优势:这种方法有助于避免在初期阶段由于序列长度过大而导致的训练困难,保证了训练的稳定性和效率。
  2. 使用 RingAttention 和 EasyContext Blockwise:

    • 技术细节:为了高效管理长序列的计算负担,采用 RingAttention 库优化注意力机制的计算,使其能够扩展到非常长的序列。同时,EasyContext Blockwise 技术被用来分块处理长文本,进一步提高处理速度和降低内存需求。
    • 应用效果:这些技术提高了模型在长序列上的训练和推理速度,使得在大规模GPU集群中的部署和执行变得更加高效。
  3. NTK-aware 插值和缩放法则:

    • 目的:利用神经切线核(NTK)理论优化模型参数的初始化和调整,以适应不同长度的文本处理。
    • 实施:通过遵循缩放法则和进行NTK-aware的参数插值,调整模型的RoPE(Rotary Positional Embeddings)theta参数,使模型在不同长度的文本上表现最佳。

训练细节

  1. 数据处理:

    • 数据集:使用了大规模图像-文本配对数据集和纯文本数据集,这些数据集被用来交错训练模型,以平衡视觉和文本信息的处理能力。
    • 数据增强:采用数据增强策略来丰富训练数据,提高模型对不同类型文本的适应性和鲁棒性。
  2. 硬件配置:

    • 部署环境:模型在Crusoe Energy的高性能L40S集群上进行训练,这些集群配备了先进的GPU和高速网络连接,以支持大规模并行处理。

所有系列模型:

Llama-3-70B-Instruct-Gradient-1048k:https://huggingface.co/gradientai/Llama-3-70B-Instruct-Gradient-1048k

Llama-3-70B-Instruct-Gradient-524k:https://huggingface.co/gradientai/Llama-3-70B-Instruct-Gradient-524k

Llama-3-70B-Instruct-Gradient-262k:https://huggingface.co/gradientai/Llama-3-70B-Instruct-Gradient-262k

Llama-3-30B-Instruct-Gradient-1048k:https://huggingface.co/gradientai/Llama-3-8B-Instruct-Gradient-1048k

Llama-3-30B-Instruct-Gradient-262k:https://huggingface.co/gradientai/Llama-3-8B-Instruct-262k

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

Stripe 推出 Stripe Agent Toolkit:让 AI 代理能自动进行支付 帮你购物、订机票等

Stripe 推出 Stripe Agent Toolkit:让 AI 代理能自动进行支付 帮你购物、订机票等

225 VIEWS
2024年11月20日
Nothing CEO  我们将进入一个后应用时代 在未来将不再有应用程序

Nothing CEO 我们将进入一个后应用时代 在未来将不再有应用程序

137 VIEWS
2024年6月7日
TxT360:一个用于大语言模型训练的全球去重的高质量数据集 5.7万亿个高质量的tokens

TxT360:一个用于大语言模型训练的全球去重的高质量数据集 5.7万亿个高质量的tokens

271 VIEWS
2024年10月8日
AnchorCrafter:自动生成具有主播风格的产品宣传视频 解决了人-物交互控制

AnchorCrafter:自动生成具有主播风格的产品宣传视频 解决了人-物交互控制

602 VIEWS
2024年12月1日
GetPickle AI是一款革新虚拟会议的AI工具 让你的替身帮你开会 你去干别的

GetPickle AI是一款革新虚拟会议的AI工具 让你的替身帮你开会 你去干别的

989 VIEWS
2024年11月21日
实时打字翻译工具 支持中英文等多种语言的文字和语音实时翻译

实时打字翻译工具 支持中英文等多种语言的文字和语音实时翻译

318 VIEWS
2024年7月29日
ChatGPT-Plus:一套完整的AI助手开源方案 自带运营管理后台

ChatGPT-Plus:一套完整的AI助手开源方案 自带运营管理后台

433 VIEWS
2024年5月6日
H2O:将人类动作实时转换为机器人动作 实时全身遥控机器人

H2O:将人类动作实时转换为机器人动作 实时全身遥控机器人

46 VIEWS
2024年3月11日
Chat2DB:AI驱动的数据开发分析平台 让普通人也能处理分析数据

Chat2DB:AI驱动的数据开发分析平台 让普通人也能处理分析数据

383 VIEWS
2024年4月29日
RT-H:让机器人学会根据人类语言描述执行任务

RT-H:让机器人学会根据人类语言描述执行任务

64 VIEWS
2024年3月7日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版