Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

Google推出开源视觉语言模型:PaliGemma 支持图像视频等多种视觉语言任务

by 小互
2024年5月16日
in AI 项目
0 0
0
0
SHARES
313
VIEWS
Share on FacebookShare on Twitter

PaliGemma是一个开放的视觉语言模型(VLM),受PaLI-3启发,基于SigLIP视觉模型和Gemma语言模型构建。PaliGemma设计为一个多功能模型,适用于多种视觉语言任务,支持图像和短视频字幕、视觉问答、图像文本理解、物体检测和分割等任务。

PaliGemma 模型包含 30 亿(3B)个参数,结合了 SigLiP 视觉编码器和 Gemma 语言模型。SigLiP 负责处理图像输入,Gemma 负责处理文本输入和生成输出。

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Login if you have purchased

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容,每天更新。
开通会员

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
478
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
332
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
444
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
277
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
608
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
423

Recommendeds

Uizard 发布 Autodesigner 2.0 AI设计引擎 只需文字或截图几秒钟内完成网站设计

Uizard 发布 Autodesigner 2.0 AI设计引擎 只需文字或截图几秒钟内完成网站设计

380 VIEWS
2024年6月13日
使用Midjourney将角色放到杂志、海报等各种场景里

使用Midjourney将角色放到杂志、海报等各种场景里

60 VIEWS
2024年3月23日
俄罗斯科技巨头Yandex 开源了一个LLM培训工具 可节省高达20%的 GPU 资源

俄罗斯科技巨头Yandex 开源了一个LLM培训工具 可节省高达20%的 GPU 资源

67 VIEWS
2024年6月13日
DriveVLM:自动驾驶与视觉语言模型的融合 增强智能汽车场景理解和规划能力

DriveVLM:自动驾驶与视觉语言模型的融合 增强智能汽车场景理解和规划能力

174 VIEWS
2024年6月24日
image-Translator: 一键翻译各类图片、漫画内文字 支持多种语言

image-Translator: 一键翻译各类图片、漫画内文字 支持多种语言

262 VIEWS
2024年3月21日
Runway :关于未来AI生成式媒体工具界面和交互的设计原则

Runway :关于未来AI生成式媒体工具界面和交互的设计原则

121 VIEWS
2024年9月12日
Interactive3D:用户可以直接通过交互操作指导3D模型生成

Interactive3D:用户可以直接通过交互操作指导3D模型生成

105 VIEWS
2024年4月26日
KEEP:能够从低质量的视频帧中进行面部细节修复 恢复出清晰、细节丰富的人脸

KEEP:能够从低质量的视频帧中进行面部细节修复 恢复出清晰、细节丰富的人脸

145 VIEWS
2024年8月22日
百川智能发布 Baichuan 4模型及首款AI智能助手“百小应” 可联网搜索

百川智能发布 Baichuan 4模型及首款AI智能助手“百小应” 可联网搜索

335 VIEWS
2024年5月22日
手把手教你如何打造《星际穿越》中的 TARS 机器人复制品

手把手教你如何打造《星际穿越》中的 TARS 机器人复制品

454 VIEWS
2024年7月8日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版