Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

Octopus-v2:可以在移动设备上运行的2B LLMs ,性能优于 GPT-4

by 小互
2024年4月8日
in AI 项目
0 0
0
0
SHARES
774
VIEWS
Share on FacebookShare on Twitter

Octopus-V2-2B是由斯坦福大学Nexa AI开发的一种先进的开源大型语言模型,具有20亿参数,专为Android API的功能调用定制。与需要详细描述潜在函数参数的检索增强生成(RAG)方法不同,Octopus-V2-2B采用了一种独特的功能性标记(functional tokens)策略,用于其训练和推理阶段。这种方法不仅使其达到了与GPT-4相当的性能水平,还大幅提高了推理速度,超越了基于RAG的方法,特别适用于边缘计算设备。

它能够在设备上直接运行,支持广泛的应用场景,从而推动Android系统管理和设备间协同工作的新方式。其快速和高效的推理能力,特别适合需要高性能和精确功能调用的场景,如智能家居控制、移动应用开发等。

Octopus-V2模型在安卓手机上运行视频

X2Twitter.com_1777115146198073344(720p)

直接通过文字指令就能指挥手机进行各种操作 如拍照、发邮件、设置闹钟、打开关闭勿扰模式等 今年AI手机有望有重大的飞跃…

技术细节:

  1. 功能令牌:引入了特定的令牌(如<func_1>)来代表每个支持的功能,并将这些令牌整合到了分词器中;
  2. 数据集组装:为每个功能策划或生成了100到1000个数据点,将命令(如“take a photo”)转换成<func2>;
  3. 基于Gemma 2B模型,对模型进行了微调,使其能够熟练地识别合适的功能和参数来执行;
  4. 优化的模型被部署在边缘设备上,实现了高效的设备上代理创建。

洞见:

  • 特殊令牌减少错误:为每个功能分配一个独特的令牌,显著降低了功能选择的错误率,去除了超过95%的上下文。
  • 卓越的准确性:即使每个功能只有100个样本,也达到了惊人的98.095%的准确率。
  • 响应时间的提升:与基于RAG的Llama-7B功能调用相比,他们的方法在延迟上显示了35倍的改进。
  • 在设备上的工作时间:对于典型查询,处理时间在1.1到1.7秒之间。它可以在汽车、耳机、手机、PC等设备上部署。
  • 实际应用:Octopus v2能够转变智能设备,实现与地图、外卖等各种服务的无缝互动。

功能特点

  1. 高精度的功能调用:Octopus v2通过引入功能性标记(functional tokens),能够准确地选择和调用正确的函数,提高了功能调用的准确性。
  2. 优化的延迟:相比传统的基于RAG的功能调用方法,Octopus v2大幅减少了延迟,提高了推理速度,适合实时应用。
  3. 上下文长度减少:通过其独特的设计,Octopus v2在进行功能调用时所需的上下文长度减少了95%,这意味着它能够更快地处理请求,同时减轻了设备的负担。
  4. 设备上运行:Octopus v2专为边缘设备设计,能够直接在设备上运行,无需依赖云计算资源,这样既保护了用户隐私,也减少了使用成本。

优势

  1. 隐私保护和成本效益:由于能够在设备上直接运行,Octopus v2避免了数据在云端处理可能引起的隐私问题,同时减少了因依赖云服务而产生的成本。
  2. 适应多种边缘设备:Octopus v2的设计考虑了边缘设备的多样性和限制,能够在不同的设备上高效运行,包括智能手机、车载系统、VR头盔等。
  3. 提高功能调用的准确性和速度:通过创新的方法优化了功能调用的精度和响应速度,对于需要快速反应的应用场景尤为重要。
  4. 减少能源消耗:在保持高性能的同时,Octopus v2还能有效降低设备的能源消耗,延长电池寿命。

性能

  1. 延迟:在基准测试中,Octopus-V2-2B展示了显著的推理速度,其速度是单个A100 GPU上“Llama7B + RAG解决方案”的35倍。与依赖A100/H100 GPU集群的GPT-4-turbo(gpt-4-0125-preview)相比,Octopus-V2-2B快了168%。
  2. 准确性:Octopus v2在功能调用的准确性上超过了包括GPT-4等现有的解决方案,准确率在各类基准测试中接近100%。其功能调用准确率比“Llama7B + RAG解决方案”高出31%。在基准数据集中,其功能调用准确率与GPT-4和RAG + GPT-3.5相当,分数在98%到100%之间。
  3. 效率:通过有效减少所需的上下文长度和优化推理速度,Octopus v2在不牺牲准确性的前提下提供了高效的性能,特别适合在资源受限的设备上运行。

模型架构及技术原理

Octopus v2使用了Google Gemma-2B模型作为其预训练模型的基础。在此基础上,通过引入特殊的功能性标记(functional tokens)和进行细致的微调,Octopus v2能够理解和执行软件应用中的函数调用,从而实现了在设备上运行时更高的准确性和更低的延迟。这种方法有效地将Google Gemma-2B模型转化为一个更适合在边缘设备上使用的高性能语言模型,同时节省了上下文长度并优化了性能。

  1. 预训练模型选择: Octopus v2选择了Google Gemma-2B模型作为预训练基础,这是因为Gemma-2B提供了强大的语言理解和生成能力,是构建高性能语言模型的理想起点。
  2. 功能性标记引入: 为了提高模型在函数调用任务上的性能,Octopus v2引入了功能性标记(functional tokens)。这些标记代表了不同的软件操作或功能,使得模型能够通过识别这些标记来准确执行特定的函数调用。
  3. 模型微调: 在预训练模型的基础上,通过对模型进行细致的微调来适应具体的函数调用任务。这一步骤涉及将功能性标记及其对应的函数描述加入训练数据中,训练模型以理解和映射这些标记到相应的软件操作上。
  4. 减少上下文长度: 通过优化模型的输入处理方式,Octopus v2能够在进行函数调用时显著减少所需的上下文长度。这是通过直接使用功能性标记来指代复杂的函数调用过程,从而减轻模型处理负担并加快响应速度。
  5. 提高执行效率: 微调后的Octopus v2模型能够快速准确地识别功能性标记,并映射到正确的函数执行过程,无需处理冗长的自然语言指令。这不仅提高了函数调用的准确性,也大大缩短了执行时间,降低了设备上的运算需求。
  6. 边缘设备部署: 优化后的模型特别适合在边缘设备上部署,如智能手机、汽车、智能家居设备等。这些设备通常资源有限,但通过Octopus v2,它们能够本地执行复杂的语言处理任务,实现快速响应和高度隐私保护。
  7. 实现多样化应用: 凭借其在设备上执行的能力,Octopus v2可以支持多种应用场景,包括但不限于智能家居控制、车载系统交互、离线语音助手等。

论文:https://arxiv.org/abs/2404.01744

模型下载:https://huggingface.co/NexaAIDev/Octopus-v2

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
482
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
336
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
615
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

基于模型的多智能体短视频推荐系统 已经为数亿用户提供服务

基于模型的多智能体短视频推荐系统 已经为数亿用户提供服务

357 VIEWS
2024年5月6日
GPT-4 通过图灵测试?研究人员称人们在图灵测试中无法区分 GPT-4 和人类

GPT-4 通过图灵测试?研究人员称人们在图灵测试中无法区分 GPT-4 和人类

483 VIEWS
2024年6月20日
Command R 系列更新 编码、数学、推理和延迟方面进行了显著提升

Command R 系列更新 编码、数学、推理和延迟方面进行了显著提升

114 VIEWS
2024年9月3日
OpenAI官方提示指南 获得更好结果的六种策略

OpenAI官方提示指南 获得更好结果的六种策略

218 VIEWS
2024年3月19日
Perplexity发布 Pro Search 高级搜索功能 支持多步推理、先进的数学和编程能力

Perplexity发布 Pro Search 高级搜索功能 支持多步推理、先进的数学和编程能力

432 VIEWS
2024年7月4日
Midjourney 推出 Personalization 功能 Midjourney会记住你的艺术喜好

Midjourney 推出 Personalization 功能 Midjourney会记住你的艺术喜好

460 VIEWS
2024年6月12日
英伟达推出视觉语言模型:VILA 具备情景学习能力 可在多个图像之间推理、理解视频

英伟达推出视觉语言模型:VILA 具备情景学习能力 可在多个图像之间推理、理解视频

210 VIEWS
2024年5月5日
ELLA:使用LLM来增强扩散模型的语义对齐

ELLA:使用LLM来增强扩散模型的语义对齐

17 VIEWS
2024年3月11日
HairFastGAN:将一张照片上的人物发型转移到另一张照片上

HairFastGAN:将一张照片上的人物发型转移到另一张照片上

287 VIEWS
2024年4月10日
TikTok 推出生成式 AI 内容工具套件Symphony 包含一系列 AI 内容生成工具

TikTok 推出生成式 AI 内容工具套件Symphony 包含一系列 AI 内容生成工具

830 VIEWS
2024年6月20日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版