Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 项目

Video-MME: 首个多模态大模型视频分析综合评估基准

by 小互
2024年6月3日
in AI 项目
0 0
0
Video-MME: 首个多模态大模型视频分析综合评估基准
0
SHARES
849
VIEWS
Share on FacebookShare on Twitter

Video-MME(Multi-Modal Evaluation benchmark)是首个专门为评估多模态大语言模型(MLLMs)在视频分析中的表现而设计的综合评估基准。该基准由来自多个大学和研究机构的研究人员共同开发,旨在通过多样化和高质量的数据集,全面考察MLLMs在处理视频数据时的能力。

与现有基准相比,Video-MME有四个关键特性

  1. 视频类型的多样性:
    • 涵盖领域:视频数据集涵盖6个主要视觉领域,包括知识、电影与电视、体育竞技、艺术表演、生活记录和多语言。
    • 子领域细分:每个领域进一步细分为30个子类别,如天文学、科技、纪录片、新闻报道、电竞、魔术表演和时尚等,确保广泛的场景适用性。

  2. 时间维度的持续性:
    • 视频长度:视频长度从短视频(11秒)到长视频(1小时)不等,评估模型在不同时间上下文中的适应性和处理能力。
    • 多层次评估:通过短、中、长视频(分别为<2分钟、4-15分钟、30-60分钟)来全面考察MLLMs在不同时间尺度上的表现。

  3. 数据模态的广泛性:
    • 多模态输入:除了视频帧,还整合了字幕和音频等多模态输入,以全面揭示MLLMs的理解和处理能力。
    • 多模态评估:通过同时评估视觉、听觉和文本信息,全面考察模型的多模态理解能力。

  4. 高质量注释:
    • 手动标注:由专家多次观看视频并进行严格的手动标注,确保数据集的高质量和准确性。
    • 问答对:每个视频配有3个高质量的多项选择问题,总计2,700对问答对,涵盖感知、推理和信息总结等任务类型。

数据集构建

  1. 视频收集:定义6个关键领域和30个细分视频类别,从YouTube收集900个视频,确保视频长度的多样性,包括短(<2分钟)、中(4-15分钟)和长视频(30-60分钟)。
  2. 问答注释:每个视频注释3个高质量的多项选择问题,总计2,700对问答对。
  3. 质量审核:进行严格的手动审核,确保问题表达正确且明确,并能有效评估模型。

对市面上的视觉模型评估结果

Video-MME评估了多种先进的MLLMs,包括GPT-4系列、Gemini 1.5 Pro,以及开源图像模型(如InternVL-Chat-V1.5)和视频模型(如LLaVA-NeXT-Video)。

模型表现

  • 总体准确率:
    • Gemini 1.5 Pro:75.7%
    • GPT-4o:66.2%
    • GPT-4V:60.7%
    • LLaVA-NeXT-Video:52.5%
    • InternVL-Chat-V1.5:51.5%

  • 视频时长对比:
    • 短视频(< 2分钟):Gemini 1.5 Pro 表现最好,达84.4%(带字幕)。
    • 中等视频(4-15分钟):Gemini 1.5 Pro 表现最好,达82.3%(带字幕)。
    • 长视频(30-60分钟):Gemini 1.5 Pro 表现最好,达76.0%(带字幕)。

  1. 商业模型:
    • Gemini 1.5 Pro:表现最佳,平均准确率为75.7%,特别是在短视频(<2分钟)上的准确率为82.3%。
    • GPT-4V和GPT-4o分别以63.7%和65.8%的准确率位列其后。
  2. 开源模型:
    • LLaVA-NeXT-Video:开源模型中表现最好,准确率为52.5%。
    • 其他开源模型如Video-LLaVA和Chat-UniVi-V1.5的准确率分别为42.3%和46.3%。
  3. 图像模型:
    • Qwen-VL-Max和InternVL-Chat-V1.5的表现接近视频特定模型LLaVA-NeXT-Video,分别达到51.7%和53.2%的准确率。

模态信息对性能的影响

  • 字幕和音频显著增强了视频理解能力:
    • 增加字幕后,Gemini 1.5 Pro的整体准确率提高了5.9%。
    • 增加音频后,长视频的准确率提升了7.2%。

不同视频时长对性能的影响

  • 随着视频长度的增加,所有模型的性能均有所下降:
    • Gemini 1.5 Pro在短视频上的准确率为82.3%,而在长视频上的准确率下降到67.5%。
    • LLaVA-NeXT-Video在短视频上的准确率为63.1%,而在长视频上的准确率下降到44.6%。

项目地址:https://video-mme.github.io/home_page.html

Support authors and subscribe to content

This is premium stuff. Subscribe to read the entire article.

Login if you have purchased

加入会员

加入会员查看更多会员内容和教程。
超过1000+的会员内容,每天更新。
开通会员

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
482
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
336
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
448
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
278
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
614
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
428

Recommendeds

Claude 3 加入了性格训练 让 AI 保持好奇心和交谈时更有人情味

Claude 3 加入了性格训练 让 AI 保持好奇心和交谈时更有人情味

210 VIEWS
2024年6月9日
ChatMusician: 能够理解和生成音乐的大语言模型

ChatMusician: 能够理解和生成音乐的大语言模型

84 VIEWS
2024年2月27日
Project Turntable:将2D矢量图像 像3D对象一样进行旋转 并自动补充缺失部分

Project Turntable:将2D矢量图像 像3D对象一样进行旋转 并自动补充缺失部分

1.1k VIEWS
2024年10月21日
OpenAI 提出了一种新方法  来提高模型输出答案的可读性 确保输出正确且易于理解

OpenAI 提出了一种新方法 来提高模型输出答案的可读性 确保输出正确且易于理解

254 VIEWS
2024年7月18日
Runway Act-One 使用教程 :仅通过单个视频和任意角色图像生成生动的表演动画

Runway Act-One 使用教程 :仅通过单个视频和任意角色图像生成生动的表演动画

316 VIEWS
2024年11月4日
Meta AI为Ray-Ban Meta智能眼镜集成多模态能力 具有视觉能力

Meta AI为Ray-Ban Meta智能眼镜集成多模态能力 具有视觉能力

227 VIEWS
2024年4月24日
麻省理工学院发布包含700多项与AI相关风险的数据库

麻省理工学院发布包含700多项与AI相关风险的数据库

155 VIEWS
2024年8月18日
OminiControl:基于FLUX.1的通用的控制框架 通过参考图像来控制图像生成的结果

OminiControl:基于FLUX.1的通用的控制框架 通过参考图像来控制图像生成的结果

267 VIEWS
2024年11月26日
Whomane:不到100美金AI Pin替代 一个开源的人工智能可穿戴相机设备

Whomane:不到100美金AI Pin替代 一个开源的人工智能可穿戴相机设备

50 VIEWS
2024年3月11日
Pika Lip Sync: 唇型同步功能向所有人开放

Pika Lip Sync: 唇型同步功能向所有人开放

176 VIEWS
2024年3月6日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版