Llama3-V：500美元的成本构建的基于 Llama3 的多模态模型性能与GPT-4V相当

Llama3-V 是基于 Llama3 的多模态模型，能够处理图像输入并生成对应的文本描述，适用于多种多模态任务。该模型以不到500美元的成本构建，性能比现有的开源多模态理解模型 LLaVA 高出10-20%，在多项指标上与规模大100倍的闭源模型（如 GPT-4V）表现相当。 模型架构 Llama3-V 的架构结合了视觉模型和语言模型，基于图像嵌入模型 (SigLIP)和Llama 3 8B模型。 图像嵌入模型 (SigLIP) SigLIP (Sigmoid Loss for Language Image Pre-Training) 是一个类似于 CLIP 的图像嵌入模型，但采用了不同的损失函数。它将图像分割为不重叠的图像块，并将这些图像块投射到低维线性嵌入空间，生成一系列的图像嵌入。主要特点包括： 分割图像 ：将输入图像分割为若干不重叠的图像块。 低维嵌入 ：将图像块投射到低维线性空间，生成图像嵌入。 自注意力机制 ：通过自注意力机制捕捉长距离依赖关系，提取高层次视觉特征。 损失函数 ：使用 pairwise sigmoid 损失，使模型能够独立处理每对图像-文本对。 图像和文本嵌入对齐 (Projection Block) 为了对齐图像和文本嵌入，Llama 3-V 使用了一个投影模块，该模块包括两个自注意力块。这个投影模块的作用是将图像嵌入映射到与文本嵌入相同的空间，从而生成最终的图像嵌入向量。 图像嵌入对齐 ：两个自注意力块用于捕捉输入嵌入中的模式，将图像嵌入对齐到文本嵌入空间。 生成视觉令牌 ：对齐后的图像嵌入被视为视觉令牌，准备与文本令牌一起输入模型。 视觉模型 (siglip-so400m) : 使用 siglip-so400m 模型来处理图像输入。 增加了一个投影层，将图像特征投影到 LLaMA 嵌入空间，使模型更好地理解图像。 语言模型 (Llama3 8B) : 使用 Llama3 8B 语言模型来生成文本输出。 在预训练过程中，除投影层外，所有权重均被冻结。 微调过程中，更新 Llama3 8B 模型的权重，冻结 siglip-so400m 模型和投影层的权重。 模型参数 : 总参数量为 8.54B。 使用 FP16 类型进行推理和训练，以提高计算效率和速度。 推理优化 为了优化计算资源的使用，Llama 3-V 实现了以下两个主要优化措施： 缓存机制 ：预先计算图像嵌入，减少训练和推理时间，同时提高 GPU 利用率。 MPS/MLX 优化 ：在 Macbooks 上运行 MPS 优化的 SigLIP 模型，实现每秒处理32张图像的吞吐量，加快缓存步骤。 训练过程 在预训练过程中，Llama 3-V 使用 SigLIP 预计算图像嵌入，并训练投影矩阵以对齐视觉和文本嵌入。关键步骤包括： 计算图像嵌入 ：使用 SigLIP 模型计算图像的向量表示。 训练投影矩阵 ：将视觉嵌入映射到多模态嵌入空间。 生成联合表示 ：将对齐后的视觉嵌入和文本嵌入组合，作为模型的联合输入。 预训练 : 在约 60 万张图像上进行训练。 合成了来自 YI 模型家族的多模态数据进行多模态文本生成。 微调 : 在约 100 万张图像上进行训练。 微调时更新 Llama3 8B 模型的权重，冻结其他层。 性能结果 Llama 3-V 在多模态理解任务中的性能表现优异，其设计和优化使得该模型在多个基准测试中表现出色。以下是详细的性能分析： 与现有模型的对比 与LLaVA对比 ： 性能提升 ：Llama 3-V 在多个基准测试中比LLaVA提高了10-20%的性能。LLaVA是目前最先进的开源多模态理解模型之一，而Llama 3-V在此基础上进行了进一步优化。 与闭源模型对比 ： 可比性能 ：在几乎所有指标上，Llama 3-V 的性能与GPT-4V、Gemini Ultra和Claude Opus等规模大100倍的闭源模型相当。尽管Llama 3-V模型更小，但在多模态任务中的表现非常接近这些大型模型。 唯一的例外是MMM U（多模态记忆任务），Llama 3-V略逊一筹。 具体基准测试结果 图像理解 ： Llama 3-V 在图像理解任务中展示了高准确性，能够有效地从图像中提取和理解信息。 在视觉语言理解任务中，Llama 3-V 的准确率和精度显著提高，显示出其在处理复杂视觉数据方面的能力。 文本生成 ： 在图像描述生成任务中，Llama 3-V 能够生成连贯且详细的文本描述，其文本生成质量高于许多现有的多模态模型。 模型在生成过程中能够准确捕捉图像中的细节，并生成具有语义连贯性的描述。 视觉问答 ： 在视觉问答任务中，Llama 3-V 能够更准确地理解问题并基于图像内容提供正确的回答。 模型在理解图像上下文和生成相关回答方面表现出色。 系统优化带来的性能提升 缓存机制 ： 提高效率 ：通过预计算图像嵌入，Llama 3-V 能够减少训练和推理时间，同时提高GPU的利用率。 增加批处理大小 ：预计算机制允许增加批处理大小，从而最大限度地利用GPU资源，提高处理效率。 MPS/MLX 优化 ： 高吞吐量 ：在Macbooks上运行MPS优化的SigLIP模型，实现每秒处理32张图像的高吞吐量，加速了缓存步骤。 计算资源优化 ：通过优化计算资源利用，Llama 3-V 能够在低成本的硬件配置下实现高效处理。 训练成本 低成本高效训练 ：Llama 3-V 的训练成本不到500美元，展示了在有限资源条件下实现高性能模型的可能性。 高效预训练和微调流程 ：通过高效的预训练和监督微调流程，显著降低了训练成本，同时保持了高性能。 性能总结 卓越的多模态理解能力 ：Llama 3-V 在图像理解、文本生成和视觉问答等任务中表现优异，超越了许多现有的开源模型，并与大型闭源模型相当。 系统优化显著提升性能 ：通过有效的系统优化和缓存机制，Llama 3-V 在资源利用和处理效率上表现出色。 成本效益高 ：以不到500美元的训练成本，展示了在有限资源条件下构建高性能多模态模型的能力。 详细介绍： https://aksh-garg.medium.com/llama-3v-building 模型下载： https://huggingface.co/mustafaaljadery/llama3v Github: https://github.com/mustafaaljadery/llama3v

Menu

分类目录

Llama3-V：500美元的成本构建的基于 Llama3 的多模态模型性能与GPT-4V相当

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

Anthropic 公布了一种全新的 AI 越狱技术可以轻松破解所有前沿模型

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

Recommendeds

Black Forest Labs 发布其最新的图像生成模型 FLUX1.1 [pro] 生成速度快6倍

Google Gemini API 新增“搜索锚定”功能利用 Google 搜索实时数据确保准确性

全面了解和掌握 Midjourney 中的各种摄影灯光照明技巧→ 特殊效果

Pandora：能够根据自然语言指令生成视频并能实时进行视频控制的通用世界模型

路透社：OpenAI 正在开发代号为“Strawberry”的新模型可自主浏览互联网并自主推理

硅基智能开源其AI数字人交互平台可以轻松创建逼真数字人

Mem0：为大语言模型提供永久记忆能力实现跨应用程序的个性化AI体验

将 Gemma 2B 的上下文窗口扩展到 1000万的技术方法

Molmo 一个完全开源的多模态模型支持2D指向交互性能仅次于GPT-4o

马里兰大学开发出一种”隐形斗篷” 可以让监控无法识别到你

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Menu

分类目录

Llama3-V：500美元的成本构建的基于 Llama3 的多模态模型 性能与GPT-4V相当

模型架构

Support authors and subscribe to content

加入会员

Related Posts

Recommendeds

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Llama3-V：500美元的成本构建的基于 Llama3 的多模态模型性能与GPT-4V相当