X AI 发布Grok-1.5 Vision多模态模型预览多项基准测试领先GPT 4V

马斯克X AI发布Grok-1.5 Vision 多模态模型

Grok-1.5V能够处理文本以及各种视觉信息，包括文档、图表、截图和照片。

基准测试中，Grok-1.5V 的能力和GPT 4V不相上下，多项指标甚至超过GPT 4V！

在新RealWorldQA真实世界物理空间基准中的表现超过GPT 4V等所有模型！

应该是使用了特斯拉的摄像头数据进行了训练！

RealWorldQA基准：这是一个新的基准测试，旨在评估多模态模型在理解真实世界物理空间方面的能力，包含超过700个问题和答案，主要采用来自车辆前摄像头等实际环境中的图像。

Grok-1.5V将很快向早期测试者和现有Grok用户开放。

关键能力点列出：

多学科推理： Grok-1.5V在多学科推理领域表现突出。
理解文档和科学图表： 能有效理解科学图表、文档等复杂视觉资料。
实际应用中的表现： 在RealWorldQA基准测试中，Grok-1.5V表现优于多数同类模型，展现了对现实世界问题的理解能力。

数据表现对比：

多模态推理 (MMMU)： Grok-1.5V的表现为53.6%，相比其他模型如GPT-4V的56.8%稍低。
文本视觉问答 (TextVQA)： 在文本读取能力上，Grok-1.5V与GPT-4V持平，均为78%。
图表视觉问答 (ChartQA)： 在图表理解上，Grok-1.5V的表现稍低于竞争对手，为76.1%。
文档视觉问答 (DocVQA)： 在文档理解上，Grok-1.5V表现为85.6%，略低于GPT-4V的88.4%。
真实世界理解 (RealWorldQA)： 在真实世界的空间理解上，Grok-1.5V以68.7%的成绩领先大多数模型。

Grok团队计划在未来几个月内，对模型的多模态理解和生成能力进行重大改进，扩展到图像、音频和视频等不同的模态。

详细：https://x.ai/blog/grok-1.5v

Menu

分类目录

X AI 发布Grok-1.5 Vision多模态模型预览多项基准测试领先GPT 4V

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

Fireworks AI新功能能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

Anthropic 公布了一种全新的 AI 越狱技术可以轻松破解所有前沿模型

INFP：基于音频驱动的双人对话中的互动头像生成能自动区分谁在说话，谁在听

Recommendeds

字节跳动 Seed-ASR：自动语音识别模型可识别不同语言、方言、口音

Truecaller 与微软合作允许用户克隆自己的声音来让AI接听电话

一款开源的 Claude Artifacts 项目可通过 Llama 3.1 405B 生成完整的 React 应用程序和组件

Stability AI 推出了Stable Artisan 可以在Discord上进行图像生成与编辑

Google DeepMind全新机器人框架使机器人能进行一对一的足球比赛

Midjourney不同相机角度的使用教程提高图像摄影技巧

Anthropic Cookbook：Claude开发系列教程包括详细代码和指南

微软开源下一代RAG技术：GraphRAG 利用知识图谱大幅增强语言模型能力

Gemini 推出了专门提升学生的学习体验新功能 5 种帮助学生更聪明地学习的方法

通过Midjourney的角色的一致性功能来制作产品海报的方法

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

Menu

分类目录

X AI 发布Grok-1.5 Vision多模态模型预览 多项基准测试领先GPT 4V

Related Posts

Recommendeds

Welcome Back!

Retrieve your password

Add New Playlist

Are you sure want to unlock this post?

Are you sure want to cancel subscription?

X AI 发布Grok-1.5 Vision多模态模型预览多项基准测试领先GPT 4V