Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 论文

Infini-attention:通过压缩记忆技术 使模型能够处理无限长的输入

by 小互
2024年4月11日
in AI 论文
0 0
0
Infini-attention:通过压缩记忆技术 使模型能够处理无限长的输入
0
SHARES
583
VIEWS
Share on FacebookShare on Twitter

Google开发出一种名为“Infini-attention”的新型注意力技术,旨在有效扩展基于Transformer的大语言模型(LLMs)以处理无限长的输入,同时限制内存和计算资源的使用。这项技术通过在标准注意力机制中引入压缩记忆(compressive memory)来实现,整合了局部掩码注意力和长期线性注意力机制于单个Transformer块中。

Infini-attention技术能够使大语言模型有效处理无限长的输入,同时不增加内存和计算资源的占用和消耗。

该技术解决的主要问题是传统的基于Transformer的大语言模型(LLMs)在处理极长序列时遇到的内存和计算资源限制。传统Transformer模型中的注意力机制在处理长序列时会面临内存使用量和计算时间呈二次方增长的问题,这限制了模型处理长文本能力,使得在资源有限的情况下难以有效扩展到长序列任务上。

解决的问题:

  1. 内存和计算效率:传统模型在处理长序列数据时,其内存和计算需求随序列长度呈二次方增长,导致长序列任务变得不切实际。
  2. 长期依赖捕获能力:长序列数据处理需要模型能够有效捕获和处理长期依赖信息,而现有Transformer结构在此方面受到其固有设计的限制。

Infini-attention成果:

  1. 无限长输入处理能力:提出的Infini-attention技术能够使大型语言模型有效处理无限长的输入,同时保持内存和计算资源的使用在一个有界的范围内。
  2. 高效的压缩记忆机制:通过引入压缩记忆到标准的注意力机制,该技术能够在不牺牲性能的情况下显著减少模型对内存的需求。实验显示,在处理长上下文语言建模任务时,内存大小的压缩比率达到了114倍。
  3. 优越的性能:在多个长序列任务上,如1M序列长度的密钥上下文块检索和500K长度的书籍摘要任务,经过Infini-attention处理的模型表现出色,甚至达到了新的状态(SOTA)。
  4. 支持快速流式推理:引入的内存参数极少,使得模型能够支持快速流式推理,提高了模型的实用性和灵活性。
  5. 模型扩展性:通过Infini-attention,传统的大型语言模型可以通过持续的预训练和微调自然扩展到无限长的上下文处理,且引入的内存参数极少,支持快速流式推理。

技术方法

“Infini-attention”技术通过引入一种新型的注意力机制来处理无限长的输入,主要特点和方法包括:

  1. 压缩记忆机制:这是Infini-attention的核心组成部分,允许模型以有界的内存和计算成本处理长期依赖信息。压缩记忆通过维持一组固定数量的参数来存储和回忆长期信息,而不是随输入序列长度线性增长。该技术通过引入压缩记忆到标准的注意力机制中,使模型能够在有限的内存中存储长期的上下文信息。这种压缩记忆不是简单地存储过去的所有输入,而是以一种高效的方式压缩这些信息,确保了既能回忆重要的长期信息,又不会随着输入序列的增长而导致内存使用急剧增加。
  2. 局部与长期注意力的结合:Infini-attention在单个Transformer块中结合了局部掩码注意力(处理短期依赖)和长期线性注意力(处理长期依赖),允许模型同时捕获长距离和短距离上下文信息。局部掩码注意力负责捕捉近距离的依赖关系,而长期线性注意力则处理更远距离的依赖。这种设计使模型能够同时理解近期和远期上下文,增强了模型对长序列数据的处理能力。
  3. 流式处理能力:利用压缩记忆和改进的注意力机制,Infini-attention支持对极长输入数据的流式处理,即使在有限的内存和计算资源下,也能高效处理。得益于压缩记忆和结合了局部与长期注意力的设计,Infini-attention支持以流式方式处理极长的输入序列。即使是非常长的文本,也可以分段输入模型进行处理,每一段的处理都会考虑到之前所有段的上下文信息,从而保持了连贯性和上下文的完整性。

实验结果

Infini-attention技术的有效性通过一系列实验得到了验证:

  1. 长上下文语言建模:在使用“Infini-attention”技术的情况下,模型在处理长序列数据时所需的内存压缩率达到了114倍。这意味着,与传统方法相比,“Infini-attention”能够在大幅减少内存使用的同时,仍然保持或甚至超过基线模型(即传统未经优化处理长上下文能力的模型)的性能。这种性能指的是模型在理解和生成语言方面的能力,包括但不限于正确预测下一个词、理解复杂句子结构和上下文含义等。
  2. 1M序列长度的密钥上下文块检索任务:当“Infini-attention”技术应用于一个规模为1B(1B,即十亿)参数的大语言模型时,这个模型的处理能力得到了显著扩展,能够自然处理长达100万(1M)个序列长度的数据。并且,在这个扩展后的处理能力上,模型在一个特定的任务——密钥检索任务中表现出色。密钥检索任务可能是一个测试模型能否从非常长的文本中准确找出特定信息(如一个“密钥”)的任务。
  3. 500K长度的书籍摘要任务:当“Infini-attention”技术应用于更大规模,8B(,即80亿)参数的大语言模型时,这个模型能够处理长达50万(500K)个序列长度的书籍摘要任务,并且在这个任务上达到了新的最佳状态(State Of The Art,SOTA)。这表明“Infini-attention”不仅提高了模型处理长文本的能力,还提升了模型在特定任务上的性能,使其能够生成更准确、更高质量的内容摘要。
  4. 模型性能:在不同的实验设置下,Infini-attention不仅展示了在处理长序列时的高效性和准确性,而且在内存使用和计算资源上表现出显著的优势,实现了对长期上下文信息的有效建模和利用。

论文:https://arxiv.org/abs/2404.07143

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
488
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
343
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
456
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
283
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
625
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
432

Recommendeds

Prompt 学习地图 24 | 流程误区 –  执行第一步的重要性

Prompt 学习地图 24 | 流程误区 – 执行第一步的重要性

110 VIEWS
2024年5月3日
Midjourney 推出 Personalization 功能 Midjourney会记住你的艺术喜好

Midjourney 推出 Personalization 功能 Midjourney会记住你的艺术喜好

460 VIEWS
2024年6月12日
Claude 3.5 新功能 支持对 100 页的PDF 图像、图表和图形进行可视化分析

Claude 3.5 新功能 支持对 100 页的PDF 图像、图表和图形进行可视化分析

337 VIEWS
2024年11月3日
Meta 发布端到端生成高质量的 3D 资产生成模型 不到一分钟生成高质量3D模型

Meta 发布端到端生成高质量的 3D 资产生成模型 不到一分钟生成高质量3D模型

300 VIEWS
2024年7月3日
面壁智能发布 MiniCPM 3.0 声称端侧模型 ChatGPT 时刻到来

面壁智能发布 MiniCPM 3.0 声称端侧模型 ChatGPT 时刻到来

343 VIEWS
2024年9月6日
Mistral AI推出了更新版的Le Chat 支持在聊天中进行搜索、上传 PDF、编程、图像生成等

Mistral AI推出了更新版的Le Chat 支持在聊天中进行搜索、上传 PDF、编程、图像生成等

161 VIEWS
2024年11月19日
苹果发布 Apple Intelligence 智能助手 深度个性化 支持跨应用交互操作

苹果发布 Apple Intelligence 智能助手 深度个性化 支持跨应用交互操作

831 VIEWS
2024年6月11日
电影配音工种集体失业 全球第一部由 AI 完全翻译配音的电影即将上映

电影配音工种集体失业 全球第一部由 AI 完全翻译配音的电影即将上映

347 VIEWS
2024年7月18日
Apten:AI 驱动的短信助手 让AI通过短信和你的客户进行交流

Apten:AI 驱动的短信助手 让AI通过短信和你的客户进行交流

247 VIEWS
2024年5月29日
GitHub 发布 Copilot Workspace 可通过自然语言编程并测试和运行代码

GitHub 发布 Copilot Workspace 可通过自然语言编程并测试和运行代码

569 VIEWS
2024年4月30日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

- Select Visibility -

    No Result
    View All Result
    • Home
    • AI 工具
    • XiaoHu.AI 学院
      • AI 教程
      • AI 课程
    • XiaoHu.AI日报
    • 开源项目案例库
      • AI 论文
      • AI 资源
      • AI 项目
    • 加入会员
    • →社群
    • Login

    © 2024 Xiaohu.AI

    Are you sure want to unlock this post?
    Unlock left : 0
    Are you sure want to cancel subscription?
    转到手机版