Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

将Llama-3 的上下文长度从8K扩展到超过100万

by 小互
2024年5月5日
in XiaoHu.AI日报
0 0
0
将Llama-3 的上下文长度从8K扩展到超过100万
0
SHARES
298
VIEWS
Share on FacebookShare on Twitter
Gradient AI最近将Llama-3 8B和7B模型通过渐进式训练方法不断将Llama-3模型的上下文长度从8k一路扩展到262k、524k
 
今天Gradient AI成功宣布成功地将Llama-3 系列模型的上下文长度扩展到超过1M…并且1M上下文窗口 70B 模型在 NIAH (大海捞针)上取得了完美分数。

Llama 3模型最初被训练用于处理8000个令牌的默认上下文长度,约相当于6,000字或10页文档。

 
Gradient为了解锁更长上下文的使用场景,扩展了Llama 3模型的上下文窗口到超过100万。这种扩展使得模型可以处理相当于《哈利·波特》系列前五本书的内容量。
这种扩展显著增加了模型处理长文本的能力,允许它在一个任务中考虑更多的信息,从而提高了理解和生成文本的精确度和相关性。

为了逐步适应这种大幅度增加的上下文长度,Gradient AI采用了渐进式训练方法。这意味着模型从较短的序列长度开始训练,逐渐增加到目标长度。这种方法有助于模型逐步学习处理更长文本的策略,而不是一开始就直接面对极大的挑战。

方法概述

  1. 渐进式训练(Progressive Training):

    • 步骤:模型从处理较短的文本序列开始,逐步增加处理的序列长度。这种渐进式增长使模型能够适应在每个步骤中的学习挑战,从而逐步提高处理更长序列的能力。
    • 优势:这种方法有助于避免在初期阶段由于序列长度过大而导致的训练困难,保证了训练的稳定性和效率。
  2. 使用 RingAttention 和 EasyContext Blockwise:

    • 技术细节:为了高效管理长序列的计算负担,采用 RingAttention 库优化注意力机制的计算,使其能够扩展到非常长的序列。同时,EasyContext Blockwise 技术被用来分块处理长文本,进一步提高处理速度和降低内存需求。
    • 应用效果:这些技术提高了模型在长序列上的训练和推理速度,使得在大规模GPU集群中的部署和执行变得更加高效。
  3. NTK-aware 插值和缩放法则:

    • 目的:利用神经切线核(NTK)理论优化模型参数的初始化和调整,以适应不同长度的文本处理。
    • 实施:通过遵循缩放法则和进行NTK-aware的参数插值,调整模型的RoPE(Rotary Positional Embeddings)theta参数,使模型在不同长度的文本上表现最佳。

训练细节

  1. 数据处理:

    • 数据集:使用了大规模图像-文本配对数据集和纯文本数据集,这些数据集被用来交错训练模型,以平衡视觉和文本信息的处理能力。
    • 数据增强:采用数据增强策略来丰富训练数据,提高模型对不同类型文本的适应性和鲁棒性。
  2. 硬件配置:

    • 部署环境:模型在Crusoe Energy的高性能L40S集群上进行训练,这些集群配备了先进的GPU和高速网络连接,以支持大规模并行处理。

所有系列模型:

Llama-3-70B-Instruct-Gradient-1048k:https://huggingface.co/gradientai/Llama-3-70B-Instruct-Gradient-1048k

Llama-3-70B-Instruct-Gradient-524k:https://huggingface.co/gradientai/Llama-3-70B-Instruct-Gradient-524k

Llama-3-70B-Instruct-Gradient-262k:https://huggingface.co/gradientai/Llama-3-70B-Instruct-Gradient-262k

Llama-3-30B-Instruct-Gradient-1048k:https://huggingface.co/gradientai/Llama-3-8B-Instruct-Gradient-1048k

Llama-3-30B-Instruct-Gradient-262k:https://huggingface.co/gradientai/Llama-3-8B-Instruct-262k

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

微软发布 Co-op Translator 可以一次性将Markdown 文件和和图像翻译成多种语言

微软发布 Co-op Translator 可以一次性将Markdown 文件和和图像翻译成多种语言

244 VIEWS
2024年12月2日
OpenAI 宣布推出Whisper large-v3-turbo 语音转录模型 速度提高了8倍

OpenAI 宣布推出Whisper large-v3-turbo 语音转录模型 速度提高了8倍

554 VIEWS
2024年10月2日
一种革命性的开源系统 现在你可以在家训练一个70B的大语言模型了

一种革命性的开源系统 现在你可以在家训练一个70B的大语言模型了

42 VIEWS
2024年3月11日
OpenAI发布了全新的 o1 推理模型 工作原理及技术报告详解

OpenAI发布了全新的 o1 推理模型 工作原理及技术报告详解

2.3k VIEWS
2024年9月13日
SuperCraft:通过无限工作流画布 将草图直接转换成真实产品图像 并自动生成3D渲染

SuperCraft:通过无限工作流画布 将草图直接转换成真实产品图像 并自动生成3D渲染

1.3k VIEWS
2024年8月26日
MindSearch:匹敌Perplexity.ai 模仿人类在网络上寻找和整合信息的AI搜索

MindSearch:匹敌Perplexity.ai 模仿人类在网络上寻找和整合信息的AI搜索

593 VIEWS
2024年8月2日
Cog-Become-Image:将将任意人物图像转换成指定的另一种图像

Cog-Become-Image:将将任意人物图像转换成指定的另一种图像

719 VIEWS
2024年3月19日
Runway :关于未来AI生成式媒体工具界面和交互的设计原则

Runway :关于未来AI生成式媒体工具界面和交互的设计原则

121 VIEWS
2024年9月12日
Chat-With-MLX:在Mac上轻松运行各种开源模型并以RAG方式聊天

Chat-With-MLX:在Mac上轻松运行各种开源模型并以RAG方式聊天

85 VIEWS
2024年3月4日
OminiControl:基于FLUX.1的通用的控制框架 通过参考图像来控制图像生成的结果

OminiControl:基于FLUX.1的通用的控制框架 通过参考图像来控制图像生成的结果

267 VIEWS
2024年11月26日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版