Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

Meta AI 发布 Llama 3.2 多模态AI模型 性能与GPT4o-mini 相当 能够在边缘设备上高效运行

by 小互
2024年9月26日
in XiaoHu.AI日报
0 0
0
Meta AI 发布 Llama 3.2 多模态AI模型 性能与GPT4o-mini 相当 能够在边缘设备上高效运行
0
SHARES
340
VIEWS
Share on FacebookShare on Twitter

Meta AI 发布 Llama 3.2多模态AI模型,旨在提供强大的自然语言处理和图像理解能力。其设计目标是提高AI在边缘计算和移动设备上的性能,

Llama 3.2包括适用于边缘和移动设备的小型和中型视觉大语言模型(11B 和 90B)以及轻量文本模型(1B 和 3B)。

  • 多模态处理能力
    • LLaMA 3.2支持同时处理文本、图像和视频,能够理解并生成跨媒体内容,增强用户体验。例如,用户可以在同一交互中结合文字和图像。
  • 高效边缘计算
    • 模型经过优化,能够在边缘设备上高效运行,降低延迟并提高响应速度。这使得实时应用(如视频通话中的AI助手)成为可能。
  • 改进的上下文理解
    • 通过增强的上下文处理能力,LLaMA 3.2能够更好地理解复杂对话,并进行多轮交流,使得人机互动更加自然流畅。

Llama 3.2 系列中最大的两个模型,11B 和 90B,支持图像推理用例,如文档级理解,包括图表和图形的理解、图像说明以及基于自然语言描述的视觉定位任务。例如,一个人可以询问自己的小企业在去年哪一月份销售最好,Llama 3.2 可以基于可用图表进行推理并快速提供答案。在另一个示例中,模型可以根据地图进行推理,并帮助回答诸如何时徒步旅行可能变陡峭或某条特定小径的距离等问题。11B 和 90B 模型还可以通过从图像中提取细节、理解场景,然后构造一两句话作为图像说明来填补视觉和语言之间的鸿沟,从而帮助讲述故事。

461006697_856998213181726_3851490171300743896_n

轻量级的 1B 和 3B 模型具有强大的多语言文本生成和工具调用能力。这些模型使开发者能够构建个性化的、本地智能应用程序,保护隐私,确保数据永远不会离开设备。例如,这样的应用程序可以帮助总结最近收到的 10 条消息,提取行动项,并利用工具调用直接发送后续会议的日历邀请。

460917681_1276004820425111_3001752397559768520_n

模型评估

评估表明,Llama 3.2 的视觉模型在图像识别和一系列视觉理解任务中与领先的基础模型 Claude 3 Haiku 和 GPT4o-mini 竞争。3B 模型在遵循指令、总结、提示重写和工具使用等任务上超越了 Gemma 2 2.6B 和 Phi 3.5-mini 模型,而 1B 模型与 Gemma 竞争力相当。

在 150 多个基准数据集上评估了性能,这些数据集覆盖了多种语言。对于视觉大语言模型,我们评估了图像理解和视觉推理的基准性能。

 

视觉模型

作为首批支持视觉任务的 Llama 模型,11B 和 90B 模型需要全新的模型架构以支持图像推理。

为了添加图像输入支持,Meta训练了一组适配器权重,将预训练的图像编码器整合到预训练的语言模型中。适配器由一系列交叉注意层组成,这些层将图像编码器的表示输入到语言模型中。在文本-图像对上训练适配器,以将图像表示与语言表示对齐。在适配器训练过程中,还更新了图像编码器的参数,但故意不更新语言模型参数。通过这种方式,保持了所有文本仅模型的能力,为开发者提供了 Llama 3.1 模型的直接替代。

训练管道由多个阶段组成,从预训练的 Llama 3.1 文本模型开始。首先,我们添加图像适配器和编码器,然后在大规模噪声(图像,文本)对数据上进行预训练。接下来,我们在中等规模的高质量领域内和知识增强的(图像,文本)对数据上进行训练。

在后期训练中,我们使用与文本模型类似的配方,通过多轮对监督微调、拒绝采样和直接偏好优化进行调整。我们利用合成数据生成,使用 Llama 3.1 模型过滤和增强基于领域内图像的问题和答案,并使用奖励模型对所有候选答案进行排名,以提供高质量的微调数据。我们还增加了安全缓解数据,以生产出具有高安全性的模型,同时保留模型的实用性。

最终结果是一组能够接受图像和文本提示并对其组合进行深刻理解和推理的模型。这是 Llama 模型拥有更丰富的自主能力的又一步。

AQMWa-qHzyhc9oiqLbpYJyshnwMlIKn0Vicr5vjikwD0Wd_bYR2tlSLFe_hN4Zo9hEcgmPxo4GOGSidprO2FUvra

轻量模型

Llama 3.2 1B 和 3B 模型使用了修剪和蒸馏两种方法,使它们成为首批高效适配设备的小型 Llama 模型。

修剪能够在保持尽可能多的知识和性能的同时减少 Llama 群体中现有模型的大小。对于 1B 和 3B 模型,采用从 Llama 3.1 8B 模型中一次性结构修剪的方法。这涉及系统性地移除网络的一部分,并调整权重和梯度的大小,以创建一个较小、更高效的模型,保留原始网络的性能。

知识蒸馏使用一个较大的网络来向较小的网络传授知识,意在使小模型在有教师的情况下能够比从头开始实现更好的性能。在 Llama 3.2 的 1B 和 3B 模型中,模型开发的预训练阶段,将来自 Llama 3.1 8B 和 70B 模型的 logits 纳入其中,这些较大模型的输出(logits)用作标记级目标。知识蒸馏是在修剪后进行的,以恢复性能。

在后期训练中,使用与 Llama 3.1 相似的配方,通过多轮对预训练模型的调整,生成最终聊天模型。每轮涉及监督微调(SFT)、拒绝采样(RS)和直接偏好优化(DPO)。

在后期训练中,将上下文长度支持扩展到 128K 个令牌,同时保持与预训练模型相同的质量。Meta还进行合成数据生成,经过仔细的数据处理和过滤,以确保高质量。我们仔细混合数据,以在摘要、重写、指令跟随、语言推理和工具使用等多种能力上优化高质量。

为了促进社区在这些模型上的创新,Meta与全球领先的移动系统芯片公司,如Qualcomm和MediaTek,以及为99%移动设备提供基础计算平台的Arm,进行了紧密合作。今天发布的模型权重采用了BFloat16数值格式,这使得新一代硬件能够得到更好的利用。Meta期待基于LLaMA 3.2开发的新应用和功能,这些应用将显著提升移动设备和边缘AI的能力。

AQOsEY2WxZMd0Kqq-0Jsmv6PtQfVoce3QG0XLpyspB9U8M4VdncjzvSu4PfmnnB4cdOwMajGsG5W2V0Nvx1i7CQR
AQPejAkmWiZ9YbHtOOqFZP7IhwDvi-wk7X2Up85igRBWy_5Bpgn7Q4n3Yp5LyLufdLgARBAO2_YK8ZovA2Bks3l6
AQMa7ndjgnFYwey1AduoqGBNhrmELfHqJP7uRdNl_eXCR2128UCrp2pE7vHpmSfYUOXdKCNSCIHIs2gF3luJbaK8

 

详细内容:https://ai.meta.com/blog/llama-3-2-connect-2024-vision-edge-mobile-devices

模型下载:https://www.llama.com/

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
483
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
337
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
449
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
616
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

Magic Insert:将一个图像中的人或物体拖放到另一个风格图像中 并实现风格融合

Magic Insert:将一个图像中的人或物体拖放到另一个风格图像中 并实现风格融合

210 VIEWS
2024年7月15日
使用 ChatGPT 像专业人类分析师一样 进行财务报表分析

使用 ChatGPT 像专业人类分析师一样 进行财务报表分析

800 VIEWS
2024年5月23日
Meta AI 发布 Llama 3.2 多模态AI模型 性能与GPT4o-mini 相当 能够在边缘设备上高效运行

Meta AI 发布 Llama 3.2 多模态AI模型 性能与GPT4o-mini 相当 能够在边缘设备上高效运行

340 VIEWS
2024年9月26日
APISR:专注于动漫图像、视频的超分辨率模型

APISR:专注于动漫图像、视频的超分辨率模型

47 VIEWS
2024年3月20日
字节跳动发布AI图像编辑工具:SeedEdit 无需专业图片处理技能 一句话即可实现P图

字节跳动发布AI图像编辑工具:SeedEdit 无需专业图片处理技能 一句话即可实现P图

711 VIEWS
2024年11月12日
OpenAI 开发人员体验主管VivaTech展示GPT-4o和Sora结合的能力

OpenAI 开发人员体验主管VivaTech展示GPT-4o和Sora结合的能力

302 VIEWS
2024年5月24日
Omni-Zero-Couples :无需图像训练自动生成风格化情侣肖像的扩散模型

Omni-Zero-Couples :无需图像训练自动生成风格化情侣肖像的扩散模型

191 VIEWS
2024年9月28日
英伟达推出视觉语言模型:VILA 具备情景学习能力 可在多个图像之间推理、理解视频

英伟达推出视觉语言模型:VILA 具备情景学习能力 可在多个图像之间推理、理解视频

210 VIEWS
2024年5月5日
StoryTribe :一个免费的在线故事板制作工具 无需绘画技能轻松制作故事板

StoryTribe :一个免费的在线故事板制作工具 无需绘画技能轻松制作故事板

1.1k VIEWS
2024年9月16日
NVIDIA 发布 Nemotron-4 340B 开源模型 主要用于生成高质量的合成数据

NVIDIA 发布 Nemotron-4 340B 开源模型 主要用于生成高质量的合成数据

176 VIEWS
2024年6月17日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版