图像分割 3D-Box-Segment-Anything(5)如何加速 - MKT

news/2025/10/22 5:58:50/文章来源:https://www.cnblogs.com/gooutlook/p/19156799

 

1算法

 

目前有多个针对速度优化的SAM变体版本,以下是主流的快速版SAM模型:

1. ​​MobileSAM​​ ⭐ 最推荐

  • ​​特点​​:将SAM的ViT-H图像编码器替换为更轻量的TinyViT
  • ​​速度提升​​:比原始SAM快4-5倍
  • ​​模型大小​​:从原始SAM的2.4GB降至40MB
  • ​​精度保持​​:在多数任务上保持相近性能

 

2. ​​EfficientSAM​​ ⭐ 轻量高效

  • ​​特点​​:专为效率设计,采用SAMI预训练方法
  • ​​速度优势​​:比SAM快20倍,比MobileSAM快4倍
  • ​​模型大小​​:仅10-50MB
  • ​​适用场景​​:移动端和边缘设备

 

2. ​​EfficientSAM​​ ⭐ 轻量高效

  • ​​特点​​:专为效率设计,采用SAMI预训练方法
  • ​​速度优势​​:比SAM快20倍,比MobileSAM快4倍
  • ​​模型大小​​:仅10-50MB
  • ​​适用场景​​:移动端和边缘设备

 

目前有多个针对速度优化的SAM变体版本,以下是主流的快速版SAM模型:

1. ​​MobileSAM​​ ⭐ 最推荐

  • ​​特点​​:将SAM的ViT-H图像编码器替换为更轻量的TinyViT
  • ​​速度提升​​:比原始SAM快4-5倍
  • ​​模型大小​​:从原始SAM的2.4GB降至40MB
  • ​​精度保持​​:在多数任务上保持相近性能
 
from mobile_sam import SamPredictor, sam_model_registry mobile_sam = sam_model_registry["vit_t"](checkpoint="./weights/mobile_sam.pt") predictor = SamPredictor(mobile_sam)
 
 

2. ​​EfficientSAM​​ ⭐ 轻量高效

  • ​​特点​​:专为效率设计,采用SAMI预训练方法
  • ​​速度优势​​:比SAM快20倍,比MobileSAM快4倍
  • ​​模型大小​​:仅10-50MB
  • ​​适用场景​​:移动端和边缘设备
 
from efficient_sam import build_efficient_sam efficient_sam = build_efficient_sam() efficient_sam.predict(image, points) # 极快推理
 
 

3. ​​EdgeSAM​​ ⭐ 边缘设备优化

  • ​​优势​​:专门为边缘计算优化,支持ONNX、TensorRT
  • ​​部署友好​​:提供完整的移动端部署方案
  • ​​性能​​:在移动设备上可达实时推理

4. ​​FastSAM​​ ⭐ 实时检测导向

  • ​​方法创新​​:用YOLO式检测替代原版分割思路
  • ​​速度表现​​:比SAM快50倍以上
  • ​​特点​​:更适合框提示的场景检测
  • ​​局限性​​:分割精度略有下降
 
from fastsam import FastSAM, FastSAMPrompt model = FastSAM('./weights/FastSAM.pt') results = model(image, device='cuda', imgsz=1024)
 
 

5. ​​Light-HQSAM​​ ⭐ 精度与速度平衡

  • ​​特点​​:在SAM基础上引入轻量化设计
  • ​​优势​​:更好的精度-速度权衡
  • ​​适用​​:需要较高精度的实时应用

6. ​​SAM 2.0 官方优化版本​​

Meta官方也提供了不同规模的版本:

  • ​​SAM2-ViT-B​​:基础版,速度提升2-3倍
  • ​​SAM2-ViT-S​​:小模型,适合移动端
  • ​​SAM2-ViT-T​​:极小模型,最大速度优化

image

 

 

2 策略

 2-0 模型轻量化与优化

  • ​​使用轻量级版本​​:优先选择 SAM2 的 mobile_sam或 tiny_vitbackbone 版本
  • ​​调整编码器​​:将默认的 ViT-H 替换为更小的 ViT-B 或 ViT-T
  • ​​自定义模型尺寸​​:通过减少 Transformer 层数和注意力头数来裁剪模型

 

2-1分辨率和尺度自适应处理​​

  • 根据无人机飞行高度动态调整处理分辨率
  • 高空:低分辨率快速扫描
  • 低空:高精度分割关键区域

分辨率调整策略​​

  • 将输入图像分辨率从 1024x1024 降至 512x512 或 768x768
  • 采用渐进式编码:先低分辨率快速检测,感兴趣区域再高精度分割
  • 对无人机视频流使用帧采样(如每3帧处理1帧)

2-2 目标框检测 然后精细化分割

 

ROI聚焦技术​​

  • 先用轻量级检测器(YOLO等)定位地标大致区域
  • 只对候选区域运行 SAM2 精细分割
  • 减少需要处理的像素数量
def cascade_detection_pipeline(frame):# 1. 先用FastSAM/YOLO快速定位地标bboxes = fast_detector(frame)# 2. 对候选区域用MobileSAM精细分割for bbox in bboxes:roi = extract_roi(frame, bbox)mask = mobile_sam.segment(roi)return results

  

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/942837.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

静态方法(`@staticmethod`)和类方法(`@classmethod`)的应用场景及选择原则

在 Python 中,静态方法(@staticmethod)和类方法(@classmethod)都属于“类级别的方法”,但适用场景有明确区别。以下从核心特性出发,详细说明两者的应用场景及选择原则: 一、静态方法(@staticmethod):与类/实…

专门针对无人机分割的预训练模型​ - MKT

专门针对无人机分割的预训练模型​ 公开可用的模型​​​​UAVid数据集预训练模型​​专门用于无人机城市场景理解 包含道路、建筑物、植被等类别 下载:GitHub搜索"UAVid-Semantic-Segmentation"​​DroneS…

为什么一般教材在讲解python的多态概念时,不用抽象基类及其相关内容讲解呢?

在讲解多态时较少优先用 Python 抽象基类(ABC,Abstract Base Class),核心原因是 ABC 并非 Python 多态的“主流或默认实现方式”,它更偏向“静态语言风格的补充工具”,而 Python 多态的本质是由动态类型和鸭子类…

[Bash] bash scripting common pitfalls

Absolutely — Bash feels strange because it blends shell commands, programming constructs, and POSIX quirks. If you come from Python, it’s easy to trip over hidden pitfalls. Here’s a thorough list, o…

[Bash]让人头晕的if条件

来自chatgptAh, yes — Bash’s conditional syntax is notoriously confusing because it has several different “types” of tests, and each has subtle differences. Let’s break it down carefully. You were …

鸭子类型(Duck Typing)中的“类型”,指的是什么的类型?为什么很多人认为“Python 没有真正实现多态”?多态的核心目的是什么?鸭子类型如何实现多态?

鸭子类型(Duck Typing)中的“类型”,指的是什么的类型? 鸭子类型(Duck Typing)中的“类型”,指的是“具备特定行为的对象的类型”——它不是传统意义上“由类定义的类型”(如 int、str 或自定义类),而是“由…

tryhackme-预安全-windows基础-windows 基础知识1-16

tryhackme-Pre Security-Windows Fundamentals -Windows Fundamentals 1 房间地址:https://tryhackme.com/room/windowsfundamentals1xbx 这是网络安全入门的基础模块的计算机科学基础知识:Windows Fundamentals 1(…

YOLO11深度学习的遥感视角地面房屋建筑检测分割与分析系统 - MKT

YOLO11深度学习的遥感视角地面房屋建筑检测分割与分析系统 https://blog.csdn.net/qq_42589613/article/details/146162941一、软件核心功能介绍及效果演示软件主要功能1. 可进行遥感视角地面房屋建筑检测分割,分割一…

鸭子类型(Duck Typing)中的“类型”,指的是什么的类型?为什么很多人认为“Python 没有真正实现多态”

鸭子类型(Duck Typing)中的“类型”,指的是“具备特定行为的对象的类型”——它不是传统意义上“由类定义的类型”(如 int、str 或自定义类),而是“由对象具备的方法/属性(行为)所定义的逻辑类型”。简单说:“…

图像分割 Segment Anything(1-2)第二代 - MKT

图像分割 Segment Anything(1-2)第二代 大模型 8秒 1800*1200 压缩一半# 使用前需要先安装 SAM 2。代码需要python>=3.10、 以及torch>=2.5.1和。请按照此处的torchvision>=0.20.1说明安装 PyTorch 和 Tor…

对比c++中的多态和python的多态

C++ 和 Python 中的“多态”都围绕“同一接口、不同实现”的核心思想,但由于语言特性(静态类型 vs 动态类型)的差异,两者在实现方式、约束性、灵活性上有显著区别。以下从核心机制、实现条件、使用场景等维度对比:…

OAK-D-SR近红外相机 - MKT

OAK-D-SR近红外相机 https://www.oakchina.cn/2024/08/13/%E5%85%B7%E6%9C%89-sam2-%E5%88%86%E6%AE%B5%E7%9A%84-ndvi-%E6%97%A0%E4%BA%BA%E6%9C%BA/

结对项目-自动生成小学四则运算题目命令行程序

(一)这个作业属于哪个课程 https://edu.cnblogs.com/campus/gdgy/Class34Grade23ComputerScience这个作业要求在哪里 https://edu.cnblogs.com/campus/gdgy/Class34Grade23ComputerScience/homework/13479这个作业的…

tryhackme-预安全-linux 基础-Linux 基础知识(第二部分)-14

tryhackme-Pre Security-Linux Fundamentals-Linux Fundamentals Part 2 房间地址:https://tryhackme.com/room/linuxfundamentalspart2 这是网络安全入门的基础模块的计算机科学基础知识:Linux Fundamentals Part 2…

tryhackme-预安全-linux 基础-Linux 基础知识(第一部分)-13

tryhackme-Pre Security-Linux Fundamentals-Linux Fundamentals Part 1 房间地址:https://tryhackme.com/room/linuxfundamentalspart1 这是网络安全入门的基础模块的计算机科学基础知识:Linux Fundamentals Part 1…

我测试了七个主流后端框架的性能-结果让我重新思考了技术选型

说实话,在开始这次测试之前,我从来没想过性能差异会这么大。作为一个大三的计算机专业学生,我一直觉得框架选择主要看功能和生态,性能嘛,差不多就行了。直到上个月,我们实验室的一个项目因为并发量上来后服务器频…

tryhackme-预安全-网络如何工作-总结-12

tryhackme-Pre Security-How The Web Works-Putting it all together 房间地址:https://tryhackme.com/room/puttingitalltogether 这是网络安全入门的基础模块的计算机科学基础知识:Putting it all together(总结)…

目标检测 Grounding DINO 用语言指定要检测的目标 - MKT

目标检测 Grounding DINO 用语言指定要检测的目标https://github.com/IDEA-Research/GroundingDINO

图像分割 3D-Box-Segment-Anything(3)分割2D到3D点云分割 rgb相机 - MKT

图像分割 3D-Box-Segment-Anything(3)分割2D到3D点云分割 rgb相机https://github.com/dvlab-research/3D-Box-Segment-AnythingVoxelNeXt (CVPR 2023) [论文] [代码]用于 3D 对象检测和跟踪的完全稀疏 VoxelNet。

图像分割 Segment Anything(3)分割2D到3D点云分割 rgb-d相机 - MKT

图像分割 Segment Anything(3)分割2D到3D点云分割 rgb-d相机 https://github.com/Pointcept/SegmentAnything3D