Menu

  • Home
  • Trending
  • Recommended
  • Latest

分类目录

  • AI 工具
  • AI新势力
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
XiaoHu.AI学院
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
No Result
View All Result
  • Login
XiaoHu.AI学院
No Result
View All Result
Home 开源项目案例库 AI 论文

基于 SAM-2 自动识别和分割外科手术视频中的手术工具

by 小互
2024年8月20日
in AI 论文
0 0
0
基于 SAM-2 自动识别和分割外科手术视频中的手术工具
0
SHARES
367
VIEWS
Share on FacebookShare on Twitter

研究人员使用了Meta AI 的 Segment Anything Model 2 (SAM 2) 来评估其在不同类型的外科手术视频中对手术工具进行零样本分割的性能。

模型在没有预先见过这些视频或手术工具的情况下,通过少量的提示(例如在视频的第一帧中手动标记某些工具),就能够自动识别和分割视频中后续帧中的手术工具。

研究选择了不同类型的手术视频进行评估,包括:

  • 内窥镜手术视频(例如通过 EndoNeRF、EndoVis’17 和 SurgToolLoc 数据集进行测试),这些视频通常是在体内使用内窥镜进行手术时拍摄的。
  • 显微手术视频,例如在耳科手术(如耳蜗植入手术)中使用显微镜拍摄的手术视频。

研究表明,SAM 2 在处理内镜和显微手术视频时表现良好,能够准确分割出视频中的手术工具。不过,如果视频太长或者环境复杂(例如模糊或遮挡),模型的表现可能会有所下降。

功能特点
  • 零样本分割:无需预先标注数据,SAM 2 模型可以直接从手术视频中识别和分割外科工具。通过使用提示(例如点、框、掩码),模型能够在视频的第一帧中获取信息,并将其应用到整个视频中进行工具追踪和分割。
  • 多场景适用性:该工具适用于不同类型的手术视频,包括内镜手术和显微手术。它可以处理包含多个手术工具的场景,以及视频长度不同的手术过程。
  • 高效分割:SAM 2 模型使用了广泛的Segment Anything Video (SA-V)数据集进行训练,能够高效地分割视频中的手术工具,减少了对手动标注的依赖,并提升了分割的精准度。
  • 内置记忆库:模型集成了一个记忆库,用于在视频的帧之间传播初始提示,从而保证分割的连续性和准确性。
  • 应对复杂环境:尽管存在挑战,例如模糊、遮挡和出血等复杂环境条件,SAM 2 仍能在这些情况下提供可靠的工具分割结果,并通过额外的提示进一步提升分割效果。
  • 适用于实时应用:由于其零样本分割能力和记忆库的结合,该工具有潜力在实时手术场景中使用,帮助外科医生更准确地识别和追踪手术工具。
主要作用
  1. 提升外科手术的精度和安全性:
    • 通过自动识别和分割手术视频中的工具,帮助外科医生更清晰地看到手术现场,减少了手术过程中可能的误操作,从而提高了手术的精度和安全性。
  2. 减少人工标注的工作量:
    • 传统的手术视频分析需要大量的人工标注,而该工具的零样本分割能力可以在没有或极少人工标注的情况下直接应用,显著减少了时间和人力成本。
  3. 支持多样化手术场景:
    • 该工具可以在不同类型的手术视频中应用,包括内镜手术和显微手术,能够适应不同工具数量和手术过程长度的变化,适用性广泛。
  4. 帮助医学研究与培训:
    • 自动分割和识别手术工具对于医学研究人员来说是一个强大的辅助工具,能够加速手术过程的分析和研究。同时,它也可以用于医学教育,帮助医学生和年轻医生更直观地学习手术过程。
  5. 促进手术机器人的发展:
    • 在手术机器人领域,该工具可以用于增强机器人的视觉系统,使其能够更准确地识别手术环境中的工具,从而更好地辅助医生进行手术。
  6. 为未来的手术AI系统奠定基础:
    • 该工具的开发和应用展示了人工智能在手术过程中的潜力,未来可以进一步发展成为更智能、更自动化的手术支持系统,甚至能够实现部分自动化手术。

实验结果

在本研究中,实验与性能评估主要集中在两个方面:内镜手术数据集和显微手术数据集。研究人员使用了多个公开数据集来测试Segment Anything Model 2 (SAM 2) 在这些手术视频中的分割性能。

1. 内镜手术数据集

使用的数据集:

  • EndoNeRF:包含两个手术视频片段,分别包含63帧和156帧。
  • EndoVis’17:包含8个机器人手术视频,每个视频包含255帧,以及对应的地面真值(ground truth)分割掩码。
  • SurgToolLoc:包含24,695个视频片段,每个片段持续30秒,以60帧每秒的速度捕获,所有视频均来自达芬奇机器人手术系统。

评估结果:

  • 在内镜手术数据集中,SAM 2 展现了强大的工具分割能力,特别是在多工具场景和不同视频长度的情况下。
  • 使用EndoVis’17数据集进行的定量评估表明,SAM 2 在Dice分数、IoU(Intersection over Union)和MAE(Mean Absolute Error)方面均优于其他主流分割方法,如U-Net、UNet++和TransUNet。

量化评估数据:

  • Dice得分:SAM 2 达到0.937,明显高于U-Net (0.894)、UNet++ (0.909) 和 TransUNet (0.904)。
  • IoU:SAM 2 的IoU值为0.890,同样优于其他方法。
  • MAE:SAM 2 的平均绝对误差(MAE)为0.018,表现最佳。
2. 显微手术数据集

使用的数据集:

  • 自有数据集:从范德堡大学医学中心和南卡罗来纳州医科大学收集的人工耳蜗植入手术视频,包括不同长度的手术片段(2到10秒),涵盖手术的不同阶段(如钻孔和植入阶段)。

评估结果:

  • SAM 2 在显微手术视频中表现出色,尤其是在单一工具和多工具的情况下都能提供可靠的分割结果。
  • 当手术场景光线良好且工具运动质量较高时,SAM 2 的分割效果最佳。

结论

讨论:

  1. 模型性能表现:
    • SAM 2 在零样本视频分割任务中展示了显著的性能优势,尤其是在光线条件良好、工具运动质量高的情况下,能够准确分割手术视频中的工具。
    • 在多种手术场景(如内镜手术和显微手术)中,SAM 2 通过仅在视频的第一帧提供点提示,就能生成可靠的工具分割结果,显示出其强大的通用性和适应能力。
  2. 模型的局限性:
    • 长视频序列的分割挑战:随着视频序列的延长,SAM 2 的分割精度有所下降,尤其是在视频的后期阶段,细节分割的准确性降低。这种性能衰减对实时手术视频的应用是一个重大挑战,需要进一步改进。
    • 复杂手术环境的影响:手术环境中的复杂因素,如模糊、出血和工具的遮挡,显著影响了SAM 2 的分割精度。特别是显微手术中,由于显微镜相机的限制和工具与手术表面的交互,模型容易失去分割的精细度。
  3. 应对策略:
    • 引入额外的提示(如新的工具进入场景时),可以在一定程度上提高分割的准确性,尤其是在处理复杂或动态变化的手术场景时。
    • 针对这些挑战,未来的研究方向应着重于如何改进模型在长视频序列中的表现,以及如何通过微调模型来增强其在复杂环境中的鲁棒性。

结论:

  • SAM 2 作为第二代Segment Anything Model,在外科手术视频中的应用表现出色,特别是在零样本条件下,能够有效分割视频中的外科工具。其强大的通用性和在多种手术场景中的适应性,使其成为未来手术视频分析和实时辅助工具的有力候选者。
  • 尽管SAM 2 在手术工具分割任务中展示了显著的性能提升,但其在长视频处理和复杂手术环境中的局限性仍需进一步研究。未来的工作应侧重于优化模型,以确保其在各种临床环境中具有更高的实用性和可靠性。
  • 总体而言,本研究首次评估了SAM 2 在外科手术视频中的应用潜力,证明了其在多种手术场景下的有效性,并为未来手术AI系统的开发奠定了基础。研究结果为SAM 2 在临床实践中的应用提供了重要参考,特别是在提高手术精度和安全性方面。

GitHub:https://github.com/AngeLouCN/SAM-2_Surgical_Video

论文:https://arxiv.org/pdf/2408.01648

Related Posts

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM)  让模型更像人类思考
XiaoHu.AI日报

Meta AI提出了一种新的语言模型架构“Large Concept Model (LCM) 让模型更像人类思考

2024年12月25日
476
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型
XiaoHu.AI日报

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

2024年12月25日
331
Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本
AI 工具

Fireworks AI新功能 能够将图像或PDF等非文本内容转化为LLM可理解的结构化文本

2024年12月24日
444
Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音
XiaoHu.AI日报

Hume AI推出全能文本与语音引擎 OCTAVE 根据文本实时生成特定人格特质的声音

2024年12月24日
276
Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型
AI 论文

Anthropic 公布了一种全新的 AI 越狱技术 可以轻松破解所有前沿模型

2024年12月23日
607
INFP:基于音频驱动的双人对话中的互动头像生成  能自动区分谁在说话,谁在听
AI 项目

INFP:基于音频驱动的双人对话中的互动头像生成 能自动区分谁在说话,谁在听

2024年12月22日
423

Recommendeds

智谱 AI 这次是真的国际领先了 发布AutoGLM 一句话手机自动帮你点外卖、订酒店买东西

智谱 AI 这次是真的国际领先了 发布AutoGLM 一句话手机自动帮你点外卖、订酒店买东西

1.3k VIEWS
2024年10月25日
Open Interpreter 推出01 App 能运行在各种硬件上 并通过语音控制来操作设备

Open Interpreter 推出01 App 能运行在各种硬件上 并通过语音控制来操作设备

400 VIEWS
2024年9月10日
宇树科技发布 Unitree G1 人形机器人 售价9.9万元

宇树科技发布 Unitree G1 人形机器人 售价9.9万元

390 VIEWS
2024年5月13日
Claude 3 加入了性格训练 让 AI 保持好奇心和交谈时更有人情味

Claude 3 加入了性格训练 让 AI 保持好奇心和交谈时更有人情味

210 VIEWS
2024年6月9日
GPTEngineer:AI 开发工程师 几秒钟内创建一个网站 并可一键部署

GPTEngineer:AI 开发工程师 几秒钟内创建一个网站 并可一键部署

694 VIEWS
2024年8月29日
iOS 18 推出了全新自定义选项 Apple Intelligence深度集成

iOS 18 推出了全新自定义选项 Apple Intelligence深度集成

997 VIEWS
2024年6月11日
WayveScenes101:一个用于自动驾驶应用的高分辨率图像数据集

WayveScenes101:一个用于自动驾驶应用的高分辨率图像数据集

52 VIEWS
2024年7月22日
H2O:将人类动作实时转换为机器人动作 实时全身遥控机器人

H2O:将人类动作实时转换为机器人动作 实时全身遥控机器人

46 VIEWS
2024年3月11日
阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

阿里巴巴推出QVQ-72B 一个基于Qwen2-VL-72B的新型多模态推理模型

331 VIEWS
2024年12月25日
SwitchLight:不改变原始拍摄环境的情况下调整视频光照

SwitchLight:不改变原始拍摄环境的情况下调整视频光照

73 VIEWS
2024年3月4日

Copyright (c) 2024 by Xiaohu.AI.

  • About
  • Contact

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

Add New Playlist

No Result
View All Result
  • Home
  • AI 工具
  • XiaoHu.AI 学院
    • AI 教程
    • AI 课程
  • XiaoHu.AI日报
  • 开源项目案例库
    • AI 论文
    • AI 资源
    • AI 项目
  • 加入会员
  • →社群
  • Login

© 2024 Xiaohu.AI

Are you sure want to unlock this post?
Unlock left : 0
Are you sure want to cancel subscription?
转到手机版