浦语灵笔 IXC-2.5：能看懂视频，完整书写文章、自动生成网站的多模态模型

InternLM-XComposer-2.5 (浦语灵笔 IXC-2.5) 是由上海人工智能实验室, 香港中文大学, 商汤集团, 清华大学开发的一个强大的多模态大模型，支持长上下文的输入和输出，能够处理从336像素到4K高清分辨率的图像，并擅长自由形式的文本图像组合和理解。 InternLM-XComposer-2.5解决了多模态大模型在长上下文处理、高分辨率图像理解、多轮多图像对话以及高质量文本-图像创作方面的挑战。 它在多种文本-图像理解和创作应用中表现出色，具有与GPT-4V相当的能力，仅使用7B LLM后端。通过RoPE外推，IXC-2.5可以扩展到96K长上下文窗口。相较于前一个版本，IXC-2.5在视觉-语言理解方面有三个主要升级：超高分辨率理解、精细的视频理解和多轮多图像对话。此外，它还扩展了两个引人注目的应用：网页制作和高质量文本-图像文章创作。 在28项基准测试中，IXC-2.5在16项上超越了现有的开源模型，并且在16项关键任务中超过或与GPT-4V和Gemini Pro接近。 [video width="1920" height="1080" mp4="https://img.xiaohu.ai/2024/07/345529914-70be926a-90ac-45f6-8b0a-5200dad1c7e4.mp4"][/video] 它能做什么？ 对话 ：IXC-2.5 可以进行多轮对话，类似于与人聊天，不仅能理解文字，还能理解和生成图像。例如，它可以在对话中解释图片内容或根据指令生成新图片。 视频分析 ：它可以详细地分析视频内容。比如，它能从一段视频中提取细节，理解视频中的每一个画面，并提供精准的描述和分析。 文章写作 ：IXC-2.5 可以写高质量的文章，并且能够在文章中插入图片。这对于需要撰写带有图文并茂内容的博客、报告等非常有用。 网页设计 ：根据给定的文本和图像指令，它可以生成完整的网页代码，包含HTML、CSS和JavaScript，使你可以直接使用这些代码来创建网页。 详细功能介绍 1. 长上下文输入和输出 IXC-2.5 能够处理长上下文的输入和输出，这意味着它可以处理大量连续的文本和图像信息。具体功能包括： 长文本处理 ：支持处理数万字的文本内容，适用于长篇文章、报告和书籍的生成和理解。 长图像序列处理 ：能够处理长时间的视频和多张连续图像，适用于视频分析和多图像内容创作。 2. 超高分辨率图像理解 动态分辨率解决方案 ：采用560x560的视觉编码器，支持任意宽高比的高分辨率图像处理。 高细节捕捉 ：通过稠密采样和高分辨率捕捉每一帧的细节，使其在处理复杂图像时表现出色，适用于医学影像、卫星图像等领域。 3. 精细的视频理解 视频帧处理 ：将视频视为由数十到数百帧组成的超高分辨率复合图片，通过对每一帧的细节分析，实现对视频内容的深入理解。这一技术能够捕捉视频中的细微变化和动态信息，适用于视频监控、广告分析和体育赛事分析等场景。 广告视频分析： 用户提供一段星巴克的广告视频，IXC-2.5 分析后得出结论：“这段视频最可能作为星巴克的广告，展示了咖啡制作过程、顾客与咖啡师的互动，并以星巴克标志和‘IT STARTS WITH YOU’的文字结束。” 4. 多轮多图像对话 自由形式对话 ：支持多轮对话和多图像输入，能够在对话过程中根据用户输入的图像进行理解和生成。多轮多图像对话技术使得 IXC-2.5 能够在一个对话中多次交换图片和文字信息，实现更自然和互动性更强的交流。 多轮多图像对话：IXC-2.5 支持多轮对话和多图像输入，能够在对话过程中根据用户输入的图像进行理解和生成。

5. 网页制作 HTML/CSS/JavaScript生成 ：IXC-2.5 能够根据文本和图像指令生成完整的网页代码，包括HTML、CSS和JavaScript。这一功能极大地提高了网页设计和开发的效率，适用于需要快速搭建网页的用户。 自动网页生成 ：基于截图、自由形式指令或简历文档自动生成网页。这一功能使用户能够快速创建复杂的网页，适用于企业网站、个人主页和在线商店等。 个人简历转网页

指令生成网页： 用户输入指令：“生成一个研究机构的网页，顶部导航栏是蓝色，左侧显示实验室标志，右侧有一段描述实验室使命的文字，下面有几个显示研究项目的图片。” IXC-2.5 将生成相应的网页代码。 截图转网页

6. 高质量文本-图像文章创作 文章生成 ：使用Chain-of-Thought和Direct Preference Optimization等技术生成高质量的带图文文章，适用于博客、报告、教育材料等。 内容创作优化 ：通过先进的内容创作技术，确保生成的文章在逻辑和连贯性上达到高标准。 Chain-of-Thought (CoT) ：利用逐步推理的方法生成连贯的长文本内容。 Direct Preference Optimization (DPO) ：使用偏好数据和 DPO 算法对生成模型进行微调，优化生成内容的质量。 生成关于气候变化影响的文章 ：用户要求生成一篇文章，IXC-2.5 将撰写一篇详细的文章，包含气候变化对自然环境、农业和旅游业的影响，以及国际社会和个人应对气候变化的措施。 7. 多模态输入处理 多样化输入支持 ：IXC-2.5 支持文本、单图像/多图像、视频和音频输入，通过统一的动态图像分割策略和帧采样技术，实现对多种输入数据的高效处理。 音频处理 ：通过 Whisper 技术将音频输入转录为文本，并使用 MeloTTS 技术将文本输出转换为音频，支持音频输入和输出。 模型架构 模型架构 视觉编码器 ：采用了OpenAI的ViT-L/14（Vision Transformer），用于处理高分辨率图像。最初分辨率为490x490，进一步提升到560x560。采用动态分辨率解决方案，支持任意纵横比的高分辨率图像。ViT通过自注意力机制将图像划分为小块，然后对这些小块进行编码。 大型语言模型 ：基于InternLM2-7B，一个具有7B参数的大型语言模型，专为处理长上下文输入和输出而设计。InternLM2-7B基于Transformer架构，能够捕捉和理解复杂的语言模式。 部分LoRA（Partial Low-Rank Adaptation） ：部分 LoRA 用于高效的模型对齐，结合视觉和语言信息，使得模型能够在处理多模态任务时表现出色。这一技术提高了模型的训练效率和性能，适用于需要同时处理文本和图像内容的任务。 统一动态图像分区策略 ：用于处理视频和多图像输入。该策略将视频帧和多图像拼接成高分辨率图像，并在图像中标注帧序，以提供时间关系。 RoPE外推 （Rotary Position Embedding Extrapolation） 目的 ：提升长上下文处理能力。 方法 ：在模型训练中使用24K交错的图像-文本上下文，通过RoPE外推技术无缝扩展到96K长的上下文。 效果 ：使模型在需要广泛输入和输出上下文的任务中表现出色。 多模态输入支持 ： 文本 ：处理自然语言输入。 单图像/多图像 ：支持单张或多张图像输入。 视频 ：通过帧采样和拼接处理视频输入。 音频 ：通过Whisper和MeloTTS工具支持音频输入和输出。 训练与微调详细介绍 预训练 预训练目标 ： 对视觉编码器和部分LoRA进行微调，使其能够与大型语言模型进行高效对齐。 数据集 ： 使用多种数据源，包括COCO、Nocaps、TextCaps等，涵盖了广泛的视觉和语言任务。 训练过程 ： 冻结LLM ：在预训练过程中，冻结大型语言模型（InternLM2-7B），只微调视觉编码器和部分LoRA。 视觉编码器 ：使用分辨率为560x560的ViT对图像进行编码。 动态图像分区策略 ：设置最大分区数量H=12，对图像进行重新分区和调整，以适应高分辨率输入。 监督微调 监督微调目标 ： 在多个任务数据集上微调模型，包括图像字幕、问答、多轮问答、科学问答、图表问答、数学问答和OCR问答。 数据集 ： 使用ShareGPT4V、COCO、Nocaps、VQAv2、GQA、OK-VQA、MMDU、AI2D、TQA、ChartQA、MathQA等数据集。 训练过程 ： 最大上下文窗口 ：设置最大上下文窗口为24,000，以处理大规模长上下文输入。 联合训练 ：对所有组件进行联合训练，批量大小为2048，共4000步。根据每个数据源的数据量对数据进行加权采样。 学习率策略 ：最大学习率设为5×10⁻⁵，对不同组件采用不同的学习策略。视觉编码器使用逐层学习率衰减策略（LLDR），衰减因子为0.9；LLM使用固定学习率缩放因子0.2，平衡原始能力和视觉知识的对齐。 奖励建模与偏好优化 奖励建模 ： 数据生成 ：使用GPT-4生成奖励模型数据，生成多种响应的选择或拒绝决策，并提供理由。 训练奖励模型 ：使用这些数据训练奖励模型πrm，预测选择或拒绝的概率。 偏好数据收集 ： 生成多样响应 ：使用微调后的模型πref生成多样响应，并通过不同随机种子生成多种响应对。 偏好数据对齐 ：根据奖励模型的选择和拒绝决策，构建偏好数据对。 直接偏好优化（DPO） ： DPO算法 ：使用DPO算法对偏好数据进行优化，通过最大化首选响应的可能性和最小化不首选响应的可能性来优化模型性能。 训练过程 ：使用LoRA进行DPO训练，rank设置为256，优化模型生成高质量内容的能力。 基准测试表现 InternLM-XComposer 2.5 在28个多模态基准测试上进行了评估，这些测试涵盖了图像理解、视频理解、多图对话和通用视觉问答（VQA）等任务。 在多项基准测试中展示了其卓越的性能和强大的多模态处理能力。 GPT-4V ：InternLM-XComposer 2.5 在多个任务上超越或接近GPT-4V的表现，展示了其在多模态任务中的竞争力。 Gemini Pro ：在多个关键任务上，InternLM-XComposer 2.5 表现优于或接近Gemini Pro。 具体评测结果示例 MVBench ： GPT-4V: 43.5 Gemini Pro: 42.6 InternLM-XComposer 2.5: 69.1 MLVU ： GPT-4V: 49.2 Gemini Pro: --- InternLM-XComposer 2.5: 58.8 MME-Video ： GPT-4V: 59.9 Gemini Pro: 75.0 InternLM-XComposer 2.5: 55.8 TextVQA ： GPT-4V: 75.1 Gemini Pro: 74.1 InternLM-XComposer 2.5: 69.9 以下是具体的基准测试表现及其分析： 1. 视频理解基准测试 IXC-2.5 在多个视频理解基准测试中表现出色，这些测试评估了模型在细粒度视频理解任务中的能力。 MVBench ：在 MVBench 上，IXC-2.5 取得了 69.1 的得分，比之前的 SOTA 方法 VideoChat2-7B 高出 8.7%，并超越了 GPT-4V 25.6%。 MLVU ：在 MLVU 基准测试中，IXC-2.5 的得分为 58.8，表现优异，接近封闭源 API 的性能。 MME-Video ：IXC-2.5 在 MME-Video 基准测试中的得分为 55.8，显示出强大的视频理解能力。 MMBench-Video ：在 MMBench-Video 测试中，IXC-2.5 的得分为 46.9，接近封闭源 API 的性能。 2. 高分辨率结构化图像理解基准测试 IXC-2.5 在结构化高分辨率图像理解任务中也表现出色，包括 DocVQA、ChartQA 和 InfographicVQA 等基准测试。 DocVQA ：在 DocVQA 测试中，IXC-2.5 取得了 90.9% 的得分，与 InternVL-1.5 相当，且仅使用了四分之一的参数。 ChartQA ：在 ChartQA 测试中，IXC-2.5 的得分为 82.2，超越了之前的 SOTA 模型。 InfographicVQA ：在 InfographicVQA 测试中，IXC-2.5 取得了 78.2 的高分，展示了其在图表和信息图理解方面的强大能力。 3. 多轮多图像对话基准测试 IXC-2.5 能够处理多图像输入并进行多轮自由形式对话，在 MMDU 基准测试中表现优异。 MMDU ：在 MMDU 基准测试中，IXC-2.5 取得了 56.6 的得分，超越了之前的 SOTA 开源模型 13.8%，显示了其在多图像和多轮对话任务中的优势。 4. 通用视觉问答基准测试 IXC-2.5 在通用视觉问答任务中表现优异，这些测试评估了其在多模态任务中的整体性能。 MMStar ：在 MMStar 基准测试中，IXC-2.5 取得了 59.9 的得分，超越了 GPT-4V 和 Gemini-Pro。 RealWorldQA ：在 RealWorldQA 测试中，IXC-2.5 的得分为 67.8，同样表现优异。 5. 截图转代码基准测试 IXC-2.5 在 Design2Code 基准测试中评估了从视觉设计到代码实现的能力。 Design2Code ：在 Design2Code 基准测试中，IXC-2.5 的平均得分为 85.1，超过了 GPT-4V，展示了其在将视觉设计转化为代码实现方面的潜力。 详细实验结果表 基准测试 IXC-2.5 GPT-4V 之前的开源 SOTA MVBench 69.1 43.5 60.4 (VideoChat2-7B) MLVU 58.8 49.2 50.4 (InternVL) MME-Video 55.8 59.9 59.0 (InternVL) MMBench-Video 46.9 56.0 42.0 (Qwen-VL) DocVQA 90.9 88.4 90.9 (InternVL-1.5) ChartQA 82.2 78.5 72.5 (InternVL) InfographicVQA 78.2 78.0 80.6 (InternVL) MMDU 56.6 66.3 42.8 (LLaVa1.6) MMStar 59.9 57.1 57.1 (InternVL) RealWorldQA 67.8 68.0 68.1 (WeMM) Design2Code (平均得分) 85.1 84.8 80.4 (Design2Code) GitHub： https://github.com/InternLM/InternLM-XComposer 论文： https://arxiv.org/pdf/2407.03320 模型下载： https://huggingface.co/internlm/internlm-xcomposer2d5-7b 在线体验： https://openxlab.org.cn/apps/detail/WillowBreeze/InternLM-XComposer