Google推出开源视觉语言模型：PaliGemma 支持图像视频等多种视觉语言任务

PaliGemma是一个开放的视觉语言模型（VLM），受PaLI-3启发，基于 SigLIP 视觉模型和Gemma语言模型构建。PaliGemma设计为一个多功能模型，适用于多种视觉语言任务，支持图像和短视频字幕、视觉问答、图像文本理解、物体检测和分割等任务。 PaliGemma 模型包含 30 亿（3B）个参数，结合了 SigLiP 视觉编码器和 Gemma 语言模型。SigLiP 负责处理图像输入，Gemma 负责处理文本输入和生成输出。 PaliGemma 能够处理最大分辨率为 896 x 896 像素的图像。这意味着它可以在高分辨率图像上执行任务，如细节丰富的图像分析、精细的文本读取和小物体检测等。 PaliGemma模型分为两组： 通用模型集 ：适用于各种任务的通用预训练模型。 研究导向模型集（PaliGemma-FT） ：针对特定研究数据集进行微调的模型。 其主要功能如下： 图像和短视频字幕生成： PaliGemma 可以生成图像和短视频的描述性字幕。它可以根据输入的图像或视频帧，自动生成详细的文字描述。这在生成内容、自动化文档编写和多媒体内容管理方面非常有用。 视觉问答： PaliGemma 支持视觉问答即根据图像或视频内容回答文本问题。用户可以输入一张图片和一个相关问题，模型会生成答案。例如，输入一张包含多个物体的图片并提问“图片中有多少个苹果？”，模型会自动分析图片并给出答案。 文本阅读： 模型能够从图像中读取文本。这对于处理带有文字的图片（如文档扫描件、图表、招牌等）非常有用。它可以自动识别并提取图像中的文字内容，从而实现图像到文本的转换。 物体检测： PaliGemma 能够检测图像中的各种物体，并为每个物体生成边界框。这个功能可以用于自动化监控、图像标注、智能相册分类等应用。用户可以输入一张图片，模型会输出每个检测到的物体及其位置。 物体分割： 除了检测物体外，PaliGemma 还支持物体分割功能。它可以将图像中的不同物体区域精确分割出来，这在图像编辑、医疗影像分析等领域非常重要。 多语言支持： PaliGemma 具有多语言理解能力，虽然主要使用英语，但也可以处理多种语言的输入。这对于全球范围内的应用非常有帮助，例如多语言的问答系统或国际化内容管理。 提供三种分辨率（224x224, 448x448, 896x896）和三种精度（bfloat16, float16, float32）。 除了通用检查点外，PaliGemma 还发布了针对特定任务的专门模型，这些模型经过微调以优化特定任务的性能。例如： 图表理解 ：专门用于理解和分析图表内容的模型。 科学问题解答 ：专门用于回答科学领域问题的模型。 COCO 字幕 ：专门用于生成 COCO 数据集图像字幕的模型。 这些专门模型在相应任务上表现更优，因为它们在特定任务数据上进行了微调和优化。 模型概述 PaliGemma-3B 是一个视觉语言模型，采用 SigLIP 视觉编码器和 Gemma 语言模型。 PaliGemma结合了SigLIP-So400m作为图像编码器和Gemma-2B作为文本解码器。 SigLIP能理解图像和文本，Gemma是用于文本生成的解码器。 通过线性适配器结合图像编码器和Gemma，使PaliGemma成为强大的视觉语言模型。 其核心架构包括以下几个主要组件： 视觉编码器（SigLIP） SigLIP-So400m/14 ：具体的视觉编码器版本。 输入处理 ：模型接收一个或多个图像输入，将其转换为“软标记”。 语言模型（Gemma） Gemma 2B ：语言模型版本。 输入处理 ：模型接收文本输入（称为“前缀”），通过 Gemma 的标记器进行标记。 标记处理 图像标记 ：由 SigLIP 编码器生成的图像标记。 文本标记 ：由 Gemma 标记器生成的文本标记。 标记融合 ：图像标记和文本标记（以此顺序）结合后传递给 Gemma 解码器。 解码器（Gemma） 全块注意力 ：使用全块注意力机制处理标记。 输出生成 ：解码器以掩码注意力机制自回归地生成输出文本（称为“后缀”）。 训练阶段 PaliGemma 的训练过程分为多个阶段： 单模态预训练： 使用公开的、预训练好的 SigLIP 和 Gemma 模型，进行单模态预训练。 多模态预训练 将 PaliGemma 模型在一个多模态训练数据集上进行预训练。 低分辨率 ：初始预训练在 224px² 低分辨率和 128 标记序列长度下进行，生成第一个基础模型。 高分辨率预训练 中分辨率 ：继续在 448px² 分辨率和 512 标记序列长度下进行预训练。 高分辨率 ：进一步在 896px² 分辨率下进行预训练，生成两个高分辨率基础模型。 微调 基础模型通过微调转移到具体任务。 提供了多个微调检查点，用于大多数评估基准。 除了基础的预训练模型和适用于多种任务的混合模型，谷歌还发布了一些已经针对具体任务进行优化的模型。这些模型在一些学术标准数据集上进行了评测，研究人员可以利用这些评测结果来比较不同模型的表现。这些优化后的模型也有不同的分辨率版本。你可以通过查看每个模型的详细说明文档来了解它们的具体性能数据。 模型名称 任务 性能指标 链接 PaliGemma-3B-FT-VQAV2-448 图示理解 (Diagram Understanding) 85.64% 准确率 (VQAV2) 查看模型卡 PaliGemma-3B-FT-COCOCAP-448 COCO 图片字幕生成 (COCO Captions) 144.6 CIDEr 查看模型卡 PaliGemma-3B-FT-SCIENCE-QA-448 科学问答 (Science Question Answering) 95.93% 准确率 (ScienceQA 图像子集，无 CoT) 查看模型卡 PaliGemma-3B-FT-REFCOCO-SEG-896 图像中特定对象的引用理解 (Referring Expressions Segmentation) 76.94 平均 IoU (refcoco) 72.18 平均 IoU (refcoco+) 72.22 平均 IoU (refcocog) 查看模型卡 PaliGemma-3B-FT-RSVQA-HR-224 遥感视觉问答 (Remote Sensing Visual Question Answering) 92.61% 准确率 (test) 90.58% 准确率 (test2) 查看模型卡 模型介绍： https://huggingface.co/blog/paligemma GitHub： https://github.com/google-research/ 模型下载： Hugging Face models 在线体验： https://huggingface.co/spaces/google/paligemma

Menu

分类目录

Google推出开源视觉语言模型：PaliGemma 支持图像视频等多种视觉语言任务

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

Anthropic 公布了一种全新的 AI 越狱技术可以轻松破解所有前沿模型

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

Recommendeds

南洋理工大学提出Q*框架：可大幅提升大语言模型的多步推理能力

FILM-7B：解决大语言模型在长上下文信息的中间丢失问题

面壁智能发布 MiniCPM 3.0 声称端侧模型 ChatGPT 时刻到来

结合解剖学精确的模型人工智能赋予虚拟果蝇生命

Cursor Directory：各种编程语言的Cursor 配置文件和提示词库

一站式AI最新研究更新、面试资源、免费课程等综合库

Sonic：基于状态空间模型的低延迟实时推理语音生成模型

英伟达推出生成式AI专家认证费用135美元

Runway 推出视频扩展工具：Expand Video 可以无缝的为视频扩展画面

英伟达推出通用机器人模型： Project GR00T 打造机器人大脑

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Menu

分类目录

Google推出开源视觉语言模型：PaliGemma 支持图像视频等多种视觉语言任务

Support authors and subscribe to content

加入会员

Related Posts

Recommendeds

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?