阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

阿里巴巴推出QVQ-72B ，一个基于 Qwen2-VL-72B 的新型多模态推理模型，专注于增强视觉理解与复杂问题解决能力。

其名称中“QVQ”代表了模型关注的 视觉理解（Visual understanding）和复杂推理（Reasoning） 。

QVQ-72B结合了语言和视觉能力，旨在提供类似于人类专家的推理能力。 它在视觉推理、数学和科学问题上表现出显著提升，特别是在多步推理任务中。 在 MMMU 等测试集上获得70.3分，大幅超越Qwen2-VL-72B-Instruct。 在数学与科学基准测试（如MathVista、OlympiadBench）中展示出优异成绩，接近当前最先进模型。 QVQ-72B 的主要功能 视觉理解 图片内容分析 ：能够从图片中提取多层次的信息，包括对象识别、场景理解、颜色、空间关系等。 细粒度视觉任务 ：支持解读复杂的图片内容，如图表、图像中的文字和手写体识别。 多模态上下文融合 ：可以结合图片和文本的语境完成更高层次的分析和理解。 语言理解与生成 多语言支持 ：对多种语言（包括中文、英语等）具有深度理解能力，适用于跨语言任务。 逐步推理 ：在文本任务中，采用逻辑分步推理方式，更准确地处理复杂问题，例如长链问题解答。 强大的生成能力 ：能够生成连贯、逻辑清晰的文本答案。 跨模态推理 多模态训练优化 高质量数据训练 ：使用大规模多模态数据集进行训练，包括图片-文本对齐、图文描述、问答数据等。 鲁棒性强 ：适应各种复杂场景，如图表、自然图片、科学文本等。 视觉与文本信息结合 ：擅长将图片信息与文本信息结合，进行复杂问题的推理和分析。 示例：理解图片中的数学公式并结合问题给出答案。 问题求解能力 ：对跨模态问题（如基于图片的推理问题）进行智能解答。 科学与数学计算 ：在科学、工程、数学等专业领域中具备深度推理能力。 专业推理能力 专注于多步推理， 能够以分步方式解决复杂问题： 在语言任务中，逐步细化解答，避免逻辑错误。 在视觉任务中，通过递归推理层层深入，确保准确性。 学术与科研 ：在数学、物理、化学等领域中的复杂问题求解表现出色。 逻辑推理 ：支持递归推理和分步推导，例如推导物理定律、解决数学奥赛题等。 性能表现 在 4 个数据集上评估 QVQ-72B-Preview，包括： MMMU：一个大学级别的多学科多模态评测集，旨在考察模型视觉相关的综合理解和推理能力。 MathVista：一个数学相关的视觉推理测试集，评估拼图测试图形的逻辑推理、函数图的代数推理和学术论文图形的科学推理等能力。 MathVision：一个高质量多模态数学推理测试集，来自于真实的数学竞赛，相比于MathVista具有更多的问题多样性和学科广度。 OlympiadBench：一个奥林匹克竞赛级别的双语多模态科学基准测试集，包含来自奥林匹克数学和物理竞赛的8,476个问题，包括中国高考。每个问题都附有专家级别的注释，详细说明了逐步推理的过程。 QVQ-72B-Preview 在 MMMU 基准测试中取得了 70.3 的分数，显著超越了 Qwen2-VL-72B-Instruct。此外，在剩下的三个专注于数学和科学问题的基准测试中，该模型表现出色，有效缩小了与领先的最先进的 o1 模型之间的差距。 多模态推理能力 QVQ-72B 在整合视觉与语言信息的复杂推理任务中具有强大表现： 视觉-语言基准测试 MMMU (Multi-Modal Multi-task Understanding) ：得分 70.3 ，显著超过其前代模型（如Qwen2-VL-72B-Instruct），在业界属于领先水平。 Visual Commonsense Reasoning (VCR) ：擅长回答视觉常识问题，通过分析图片与文本内容实现更高的准确率。 数学与科学领域 在 MathVista 和 OlympiadBench 等专门为测试科学推理设计的基准测试中表现优异。 接近当前最先进的模型，特别是在数学、物理推导等多步推理任务中展现了卓越能力。 专业领域的表现 数学与逻辑推理 数学问题求解 在数学推理任务（如代数、微积分）中，模型通过分步推理显著减少错误率。 能够理解并解决公式化问题，例如解析图片中的公式或数学题。 多步推理 精通递归推理，通过分步处理复杂问题，如解答数学奥赛题或多阶段逻辑推理问题。 科学与工程 科学推理 可在物理问题中结合文字和视觉信息推导因果关系。 在化学反应分析任务中表现卓越，例如识别图片中的化学式并解读。 工程与技术图表 在技术报告、复杂图表分析中提取关键信息的准确率和效率较高。 实际应用场景中的表现 图像识别与理解 精准识别图片中的细节，例如物体位置、颜色、空间关系，以及复杂情景。 能识别手写内容、图表中的文字和数学表达式。 跨模态问答 支持复杂问题的多模态解答，结合图片和文本上下文，生成逻辑清晰的答案。 擅长回答涉及视觉常识、数学推理等需要结合图文信息的问题。 语言推理 多语言支持 ：支持多语言任务，包括中文、英语等，推理结果具备一致性。 在复杂文本生成任务中，生成答案的逻辑性和连贯性均处于领先水平。 基准测试对比 任务类别 测试集 QVQ-72B 得分 对比优势 多模态理解 MMMU 70.3 超越前代模型，优化多模态信息融合能力 数学推理 MathVista 高分，接近SOTA 分步推理显著降低错误率，在复杂题目中表现出色 科学问题 OlympiadBench 接近SOTA 在科学领域表现优异，适合学术和科研应用 视觉理解与推理 VCR 卓越表现 在视觉常识推理任务中超越多个现有多模态模型 图文融合问题解答 科学/技术数据集 高效 对复杂技术报告和工程图表的理解能力显著提高 官方介绍： https://qwenlm.github.io/zh/blog/qvq-72b-preview/