Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home XiaoHu.AI日报

X AI 发布Grok-1.5 Vision多模态模型预览 多项基准测试领先GPT 4V

by 小互
2024年4月14日
in XiaoHu.AI日报
0 0
0
X AI 发布Grok-1.5 Vision多模态模型预览 多项基准测试领先GPT 4V
0
SHARES
108
VIEWS
Share on FacebookShare on Twitter

马斯克X AI发布Grok-1.5 Vision 多模态模型

Grok-1.5V能够处理文本以及各种视觉信息,包括文档、图表、截图和照片。

基准测试中,Grok-1.5V 的能力和GPT 4V不相上下,多项指标甚至超过GPT 4V!

在新RealWorldQA真实世界物理空间基准中的表现超过GPT 4V等所有模型!

应该是使用了特斯拉的摄像头数据进行了训练!

RealWorldQA基准:这是一个新的基准测试,旨在评估多模态模型在理解真实世界物理空间方面的能力,包含超过700个问题和答案,主要采用来自车辆前摄像头等实际环境中的图像。

Grok-1.5V将很快向早期测试者和现有Grok用户开放。

关键能力点列出:

  • 多学科推理: Grok-1.5V在多学科推理领域表现突出。
  • 理解文档和科学图表: 能有效理解科学图表、文档等复杂视觉资料。
  • 实际应用中的表现: 在RealWorldQA基准测试中,Grok-1.5V表现优于多数同类模型,展现了对现实世界问题的理解能力。

数据表现对比:

  • 多模态推理 (MMMU): Grok-1.5V的表现为53.6%,相比其他模型如GPT-4V的56.8%稍低。
  • 文本视觉问答 (TextVQA): 在文本读取能力上,Grok-1.5V与GPT-4V持平,均为78%。
  • 图表视觉问答 (ChartQA): 在图表理解上,Grok-1.5V的表现稍低于竞争对手,为76.1%。
  • 文档视觉问答 (DocVQA): 在文档理解上,Grok-1.5V表现为85.6%,略低于GPT-4V的88.4%。
  • 真实世界理解 (RealWorldQA): 在真实世界的空间理解上,Grok-1.5V以68.7%的成绩领先大多数模型。

 Grok团队计划在未来几个月内,对模型的多模态理解和生成能力进行重大改进,扩展到图像、音频和视频等不同的模态。

详细:https://x.ai/blog/grok-1.5v

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
482
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
336
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
448
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
614
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

字节跳动 Seed-ASR:自动语音识别模型 可识别不同语言、方言、口音

字节跳动 Seed-ASR:自动语音识别模型 可识别不同语言、方言、口音

523 VIEWS
2024年8月20日
Truecaller 与微软合作 允许用户克隆自己的声音 来让AI接听电话

Truecaller 与微软合作 允许用户克隆自己的声音 来让AI接听电话

301 VIEWS
2024年5月23日
一款开源的 Claude Artifacts 项目 可通过 Llama 3.1 405B 生成完整的 React 应用程序和组件

一款开源的 Claude Artifacts 项目 可通过 Llama 3.1 405B 生成完整的 React 应用程序和组件

435 VIEWS
2024年8月3日
Stability AI 推出了Stable Artisan 可以在Discord上进行图像生成与编辑

Stability AI 推出了Stable Artisan 可以在Discord上进行图像生成与编辑

250 VIEWS
2024年5月10日
Google DeepMind全新机器人框架 使机器人能进行一对一的足球比赛

Google DeepMind全新机器人框架 使机器人能进行一对一的足球比赛

43 VIEWS
2024年4月12日
Midjourney不同相机角度的使用教程 提高图像摄影技巧

Midjourney不同相机角度的使用教程 提高图像摄影技巧

169 VIEWS
2024年5月1日
Anthropic Cookbook:Claude开发系列教程 包括详细代码和指南

Anthropic Cookbook:Claude开发系列教程 包括详细代码和指南

158 VIEWS
2024年4月7日
微软开源下一代RAG技术:GraphRAG 利用知识图谱大幅增强语言模型能力

微软开源下一代RAG技术:GraphRAG 利用知识图谱大幅增强语言模型能力

1.1k VIEWS
2024年7月9日
Gemini 推出了专门提升学生的学习体验新功能 5 种帮助学生更聪明地学习的方法

Gemini 推出了专门提升学生的学习体验新功能 5 种帮助学生更聪明地学习的方法

233 VIEWS
2024年8月30日
通过Midjourney的角色的一致性功能来制作产品海报的方法

通过Midjourney的角色的一致性功能来制作产品海报的方法

118 VIEWS
2024年3月24日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版