Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

将Llama-3 的上下文长度从8K扩展到超过100万

by 小互
2024年5月5日
in XiaoHu.AI日报
0 0
0
将Llama-3 的上下文长度从8K扩展到超过100万
0
SHARES
298
VIEWS
Share on FacebookShare on Twitter
Gradient AI最近将Llama-3 8B和7B模型通过渐进式训练方法不断将Llama-3模型的上下文长度从8k一路扩展到262k、524k
 
今天Gradient AI成功宣布成功地将Llama-3 系列模型的上下文长度扩展到超过1M…并且1M上下文窗口 70B 模型在 NIAH (大海捞针)上取得了完美分数。

Llama 3模型最初被训练用于处理8000个令牌的默认上下文长度,约相当于6,000字或10页文档。

 
Gradient为了解锁更长上下文的使用场景,扩展了Llama 3模型的上下文窗口到超过100万。这种扩展使得模型可以处理相当于《哈利·波特》系列前五本书的内容量。
这种扩展显著增加了模型处理长文本的能力,允许它在一个任务中考虑更多的信息,从而提高了理解和生成文本的精确度和相关性。

为了逐步适应这种大幅度增加的上下文长度,Gradient AI采用了渐进式训练方法。这意味着模型从较短的序列长度开始训练,逐渐增加到目标长度。这种方法有助于模型逐步学习处理更长文本的策略,而不是一开始就直接面对极大的挑战。

方法概述

  1. 渐进式训练(Progressive Training):

    • 步骤:模型从处理较短的文本序列开始,逐步增加处理的序列长度。这种渐进式增长使模型能够适应在每个步骤中的学习挑战,从而逐步提高处理更长序列的能力。
    • 优势:这种方法有助于避免在初期阶段由于序列长度过大而导致的训练困难,保证了训练的稳定性和效率。
  2. 使用 RingAttention 和 EasyContext Blockwise:

    • 技术细节:为了高效管理长序列的计算负担,采用 RingAttention 库优化注意力机制的计算,使其能够扩展到非常长的序列。同时,EasyContext Blockwise 技术被用来分块处理长文本,进一步提高处理速度和降低内存需求。
    • 应用效果:这些技术提高了模型在长序列上的训练和推理速度,使得在大规模GPU集群中的部署和执行变得更加高效。
  3. NTK-aware 插值和缩放法则:

    • 目的:利用神经切线核(NTK)理论优化模型参数的初始化和调整,以适应不同长度的文本处理。
    • 实施:通过遵循缩放法则和进行NTK-aware的参数插值,调整模型的RoPE(Rotary Positional Embeddings)theta参数,使模型在不同长度的文本上表现最佳。

训练细节

  1. 数据处理:

    • 数据集:使用了大规模图像-文本配对数据集和纯文本数据集,这些数据集被用来交错训练模型,以平衡视觉和文本信息的处理能力。
    • 数据增强:采用数据增强策略来丰富训练数据,提高模型对不同类型文本的适应性和鲁棒性。
  2. 硬件配置:

    • 部署环境:模型在Crusoe Energy的高性能L40S集群上进行训练,这些集群配备了先进的GPU和高速网络连接,以支持大规模并行处理。

所有系列模型:

Llama-3-70B-Instruct-Gradient-1048k:https://huggingface.co/gradientai/Llama-3-70B-Instruct-Gradient-1048k

Llama-3-70B-Instruct-Gradient-524k:https://huggingface.co/gradientai/Llama-3-70B-Instruct-Gradient-524k

Llama-3-70B-Instruct-Gradient-262k:https://huggingface.co/gradientai/Llama-3-70B-Instruct-Gradient-262k

Llama-3-30B-Instruct-Gradient-1048k:https://huggingface.co/gradientai/Llama-3-8B-Instruct-Gradient-1048k

Llama-3-30B-Instruct-Gradient-262k:https://huggingface.co/gradientai/Llama-3-8B-Instruct-262k

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
338
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
450
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
279
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
617
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
429

Recommendeds

Figma 推出新的演示文稿制作工具 Figma Slides

Figma 推出新的演示文稿制作工具 Figma Slides

209 VIEWS
2024年6月28日
利用大语言模型生成的知识图谱加速生物材料发现

利用大语言模型生成的知识图谱加速生物材料发现

127 VIEWS
2024年4月16日
Sailor:是一套为东南亚国家量身定制的语言模型

Sailor:是一套为东南亚国家量身定制的语言模型

101 VIEWS
2024年3月2日
卡内基梅隆大学数学系的教授、美国IMO国家队的教练:人类需要进入高度戒备状态

卡内基梅隆大学数学系的教授、美国IMO国家队的教练:人类需要进入高度戒备状态

247 VIEWS
2024年7月27日
Adobe Premiere Pro 推出多项新的生成式AI功能 大幅提高视频编辑效率

Adobe Premiere Pro 推出多项新的生成式AI功能 大幅提高视频编辑效率

303 VIEWS
2024年10月15日
Seed-TTS:由字节跳动开发的几乎完美接近人类的文本到语音(TTS)模型

Seed-TTS:由字节跳动开发的几乎完美接近人类的文本到语音(TTS)模型

2.3k VIEWS
2024年6月7日
Apple Intelligence背后基础模型:一个约30亿参数的设备端模型和一个服务器端大模型

Apple Intelligence背后基础模型:一个约30亿参数的设备端模型和一个服务器端大模型

284 VIEWS
2024年6月12日
Inflection AI发布Inflection-2.5模型 只用四成功力就匹敌GPT 4

Inflection AI发布Inflection-2.5模型 只用四成功力就匹敌GPT 4

24 VIEWS
2024年3月11日
OLMo:真正的完全开源大模型

OLMo:真正的完全开源大模型

77 VIEWS
2024年3月2日
Rewind推出可穿戴AI设备:Limitless吊坠 续航100小时 记录你整天内容

Rewind推出可穿戴AI设备:Limitless吊坠 续航100小时 记录你整天内容

433 VIEWS
2024年4月16日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版