Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

轻量级冠军:英伟达发布最精确的小语言模型 可在移动设备上运行

by 小互
2024年8月23日
in XiaoHu.AI日报
0 0
0
轻量级冠军:英伟达发布最精确的小语言模型 可在移动设备上运行
0
SHARES
267
VIEWS
Share on FacebookShare on Twitter

英伟达(NVIDIA)推出了Mistral-NeMo-Minitron 8B,这是一款由英伟达与Mistral AI合作开发的Mistral NeMo 12B模型的紧凑版本。不仅精度高,而且计算效率高,可在 GPU 加速的数据中心、云和工作站上运行模型。

通过剪枝和蒸馏技术优化,这款小型模型在保持尖端精度的同时,降低了计算成本,并且可以在工作站和笔记本电脑等设备上实现实时性能。

Mistral-NeMo-Minitron 8B可以作为英伟达NIM微服务提供,适用于各种应用,包括AI驱动的聊天机器人、虚拟助手和内容生成器。

与更大的模型不同,小型语言模型可以实时运行在工作站和笔记本电脑上。这使得资源有限的组织能够更轻松地在其基础设施中部署生成式AI能力,同时优化成本、运营效率和能源使用。在边缘设备上本地运行语言模型也带来了安全优势,因为数据不需要从边缘设备传输到服务器。

开发者可以使用标准应用编程接口(API)将Mistral-NeMo-Minitron 8B打包为NVIDIA NIM微服务开始使用,或者从Hugging Face下载模型。不久后,还将提供一个可下载的NVIDIA NIM,能在任何GPU加速系统上几分钟内部署。

模型优化

Mistral-NeMo-Minitron 8B 的模型优化是通过以下两个关键步骤实现的:

  1. 宽度剪枝 (Width Pruning):
    • 目的: 宽度剪枝的目的是在不显著影响模型性能的前提下,减小模型的大小。它通过减少模型中神经元的数量以及注意力头和嵌入通道的数量来实现这一目标。
    • 过程: 在对Mistral NeMo 12B模型进行剪枝时,研究人员计算了每个注意力头、嵌入通道和MLP隐藏维度的重要性分数,并根据这些分数对模型进行剪枝。具体而言,MLP中间维度从14,336减少到11,520,隐藏大小从5,120减少到4,096,同时保留了注意力头的数量和层数。
  2. 知识蒸馏 (Knowledge Distillation):
    • 目的: 知识蒸馏是为了将大型复杂模型(通常称为教师模型)的知识转移到一个较小的学生模型中,从而创建一个更高效的模型,同时保留原始大模型的大部分预测能力。
    • 过程: 在剪枝后,研究团队使用了3800亿个标记的数据集对模型进行了轻量再训练。再训练使用了峰值学习率为1e-4、最小学习率为4.5e-7、60步线性预热、余弦衰减调度以及768的全局批次大小。这种蒸馏过程帮助恢复了剪枝后可能丢失的模型精度。

通过这种剪枝与蒸馏的结合,Mistral-NeMo-Minitron 8B模型在显著减少计算成本的同时,依然保持了高精度的预测能力。这种优化策略为构建更小、更高效的AI模型提供了一个有效的框架。

性能表现

Mistral-NeMo-Minitron 8B 模型在多个基准测试中表现出色,其性能表现可以从以下几个方面来理解:

  1. 领先的基准测试成绩:
    • 九个流行的基准测试: Mistral-NeMo-Minitron 8B 在九个广泛使用的基准测试中取得了优异成绩,这些测试涵盖了语言理解、常识推理、数学推理、摘要生成、编程代码生成以及生成真实答案的能力。
    • 对比结果: 在这些基准测试中,Mistral-NeMo-Minitron 8B 基础模型的表现接近甚至优于它的“大哥” Mistral NeMo 12B 模型。例如,在WinoGrande、ARC Challenge、MMLU、HellaSwag、GSM8K、TruthfulQA、XLSum en、MBPP 和 HumanEval 等测试中,该模型表现出色,尤其在WinoGrande和GSM8K测试中,8B模型的表现超过了许多同类模型。
  2. 高效的计算成本:
    • 训练效率: 通过剪枝和知识蒸馏技术,Mistral-NeMo-Minitron 8B 模型不仅在性能上接近12B的模型,还显著减少了计算资源的需求。相比于从零开始训练一个同等规模的模型,通过剪枝和蒸馏再训练的方式,可以节省高达40倍的计算资源。
  3. 适应性强:
    • 结构紧凑: Mistral-NeMo-Minitron 8B 的8B参数模型具备紧凑的结构,适合在需要高效AI处理的应用场景中使用,如嵌入式设备、移动设备或边缘计算设备。
    • 精度与效率平衡: 该模型在保留高精度的同时,大大提升了运行效率,适合需要低延迟、高响应速度的应用,例如实时聊天机器人、虚拟助手和内容生成工具。

NVIDIA还在本周宣布了Nemotron-Mini-4B-Instruct,这是另一个为NVIDIA GeForce RTX AI PC和笔记本电脑上优化的低内存使用率和更快响应时间的小型语言模型。该模型作为NVIDIA NIM微服务可用于云端和设备端部署,并且是NVIDIA ACE的一部分,这是一套由生成式AI驱动的提供语音、智能和动画的数字人技术。

通过浏览器或API在ai.nvidia.com体验这两个作为NIM微服务的模型。

官方介绍:https://blogs.nvidia.com/blog/mistral-nemo-minitron-8b-small-language-model/

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
473
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
329
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
441
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
276
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
602
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
422

Recommendeds

Prompt 学习地图 29 | 国产大模型及提示词适配

324 VIEWS
2024年5月20日
X.AI 宣布推出了:Grok-1.5 128k 上下文长度,即将在𝕏上进行提供

X.AI 宣布推出了:Grok-1.5 128k 上下文长度,即将在𝕏上进行提供

33 VIEWS
2024年3月29日
Open Interpreter 推出01 App 能运行在各种硬件上 并通过语音控制来操作设备

Open Interpreter 推出01 App 能运行在各种硬件上 并通过语音控制来操作设备

400 VIEWS
2024年9月10日
TikTok 推出生成式 AI 内容工具套件Symphony 包含一系列 AI 内容生成工具

TikTok 推出生成式 AI 内容工具套件Symphony 包含一系列 AI 内容生成工具

830 VIEWS
2024年6月20日
Google DeepMind的 AI 在国际数学奥林匹克竞赛中达到银牌标准

Google DeepMind的 AI 在国际数学奥林匹克竞赛中达到银牌标准

174 VIEWS
2024年7月26日
SAMPLE:自动化蛋白质设计系统 自己设计和测试新的蛋白质

SAMPLE:自动化蛋白质设计系统 自己设计和测试新的蛋白质

23 VIEWS
2024年3月6日
STRUCT CHEM:提高大语言模型解决复杂化学问题的能力

STRUCT CHEM:提高大语言模型解决复杂化学问题的能力

132 VIEWS
2024年3月6日
微软发布Phi-3.5-vision 轻量级、多模态的开源模型 端侧运行 可进行复杂视觉推理

微软发布Phi-3.5-vision 轻量级、多模态的开源模型 端侧运行 可进行复杂视觉推理

527 VIEWS
2024年8月21日
Poe 推出Previews 的新功能 可在聊天窗口直接生成Web应用程序并进行互动

Poe 推出Previews 的新功能 可在聊天窗口直接生成Web应用程序并进行互动

405 VIEWS
2024年7月9日
Pandora:能够根据自然语言指令生成视频 并能实时进行视频控制的通用世界模型

Pandora:能够根据自然语言指令生成视频 并能实时进行视频控制的通用世界模型

140 VIEWS
2024年5月24日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版