X AI 发布Grok-1.5 Vision多模态模型预览多项基准测试领先GPT 4V

马斯克X AI发布Grok-1.5 Vision 多模态模型

Grok-1.5V能够处理文本以及各种视觉信息，包括文档、图表、截图和照片。

基准测试中，Grok-1.5V 的能力和GPT 4V不相上下，多项指标甚至超过GPT 4V！

在新RealWorldQA真实世界物理空间基准中的表现超过GPT 4V等所有模型！

应该是使用了特斯拉的摄像头数据进行了训练！

RealWorldQA基准：这是一个新的基准测试，旨在评估多模态模型在理解真实世界物理空间方面的能力，包含超过700个问题和答案，主要采用来自车辆前摄像头等实际环境中的图像。

Grok-1.5V将很快向早期测试者和现有Grok用户开放。

关键能力点列出：

多学科推理： Grok-1.5V在多学科推理领域表现突出。
理解文档和科学图表： 能有效理解科学图表、文档等复杂视觉资料。
实际应用中的表现： 在RealWorldQA基准测试中，Grok-1.5V表现优于多数同类模型，展现了对现实世界问题的理解能力。

数据表现对比：

多模态推理 (MMMU)： Grok-1.5V的表现为53.6%，相比其他模型如GPT-4V的56.8%稍低。
文本视觉问答 (TextVQA)： 在文本读取能力上，Grok-1.5V与GPT-4V持平，均为78%。
图表视觉问答 (ChartQA)： 在图表理解上，Grok-1.5V的表现稍低于竞争对手，为76.1%。
文档视觉问答 (DocVQA)： 在文档理解上，Grok-1.5V表现为85.6%，略低于GPT-4V的88.4%。
真实世界理解 (RealWorldQA)： 在真实世界的空间理解上，Grok-1.5V以68.7%的成绩领先大多数模型。

Grok团队计划在未来几个月内，对模型的多模态理解和生成能力进行重大改进，扩展到图像、音频和视频等不同的模态。

详细：https://x.ai/blog/grok-1.5v

Menu

分类目录

X AI 发布Grok-1.5 Vision多模态模型预览多项基准测试领先GPT 4V

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

Anthropic 公布了一种全新的 AI 越狱技术可以轻松破解所有前沿模型

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

Recommendeds

Figma 推出新的演示文稿制作工具 Figma Slides

RenderNet Al 推出视频换脸功能可轻松通过照片更改视频人物面容

AniPortrait：根据音频和图像输入生成会说话、唱歌的动态视频

教你如何使用 AI 在几秒钟内将 YouTube 视频转换为SEO博客文章。

微软发布 Azure AI 高清语音模型能理解文本背后的情感并实时调整语音语调和情感表达

Wayve 获得由软银领投超 10 亿美元融资，将开发具身体智能自动驾驶产品

Perplexity AI 推出了两个全新功能：内部知识搜索和 Spaces 更加方便易用

MindEye2：仅需1小时训练数据就能从大脑活动中重建所见图像

苹果收购法国初创公司Datakalab 专注于AI和计算机视觉技术

解锁Midjourney工作流程如何使用图像提示进行创造性工作

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Menu

分类目录

X AI 发布Grok-1.5 Vision多模态模型预览 多项基准测试领先GPT 4V

Related Posts

Recommendeds

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

X AI 发布Grok-1.5 Vision多模态模型预览多项基准测试领先GPT 4V