OpenMMLab教程:OpenMMLab介绍与安装

一、 OpenMMLab介绍

OpenMMLab 是一个用于学术研究和工业应用的开源算法体系,于2018年年中开始,由 MMLab(香港中文大学多媒体实验室)和商汤科技联合启动。OpenMMLab 致力于为计算机视觉领域的重要方向创建统一且开源的代码库,推进可复现算法生态的建立;目前为止 OpenMMLab 已经陆续开源30多个视觉算法库,实现了300多种算法,并包含2000+预训练模型,涵盖2D/3D目标检测语义分割视频理解姿态分析等多个方向。

OpenMMLab算法库的特点

  • 模块化组合设计。将网络框架分解为不同组件,将数据集构建、模型搭建、训练过程设计等过程封装为模块,在统一而灵活的架构上,用户能够轻松组合调用不同的模块,构建自定义计算机视觉网络框架;
  • 高性能。基于底层库MMCV,OpenMMLab中几乎所有基本运算操作都在GPU上运行,训练速度快;
  • SOTA方法。开源框架中集成计算机视觉各个领域最新的先进算法,并且不断更新,使用者能够轻松使用新方法并进行改进。OpenMMLab系列项目的核心组件是MMCV,它是用于计算机视觉研究的基础Python库,支持OpenMMLab旗下其他开源库,是上述一系列上层框架的基础支持库,提供底层通用组件,灵活性强,可扩展性好。

图源OpenMMLab

二、 MMDetection介绍与安装

OpenMMLab系列包含针对2D/3D目标检测的MMDetection/MMDetection3D、针对旋转目标检测的MMRotate、针对图像分割的MMSegmentation、针对目标追踪的MMTracking等多种算法库,它们均以Pytorch和MMCV为基础实现上层算法。

本系列教程从最具影响力的算法库MMDetection入手,来从零讲解OpenMMLab系列算法库的使用,由于MM系列算法库的搭建框架、使用方法基本相同,因此读者在掌握MMDetection的基础用法后,使用其他类别的算法库也能够快速上手。

MMDetection是一款基于PyTorch的开源目标检测工具箱,也是OpenMMLab最知名的开源库,包含目标检测、实例分割领域的基础框架数十种sota算法。目前在Github上已经收获21.7k star,也是本文重点介绍的视觉库。(项目地址](github.com/open-mmlab/…) )

图源OpenMMDetection

2.1 MMDetecion安装

在使用之前,搭建环境是一切的基础,首先使用Anaconda搭建虚拟环境,进行mmdetection安装。 下面介绍Linux、Windows下环境搭建、相关库(Pytorch、CUDA)版本选择,CPU、GPU平台安装的步骤;如果想在Google Colab下安装,或者使用Docker安装,可以参考官方的(github.com/open-mmlab/…)。

1)从头搭建MMDetection运行环境

1. 创建Anaconda虚拟环境

ini
复制代码
conda create --name openmmlab python=3.8 -y # python也可以选择其他版本
conda activate openmmlab

2. 安装PyTorch 安装GPU版:conda install pytorch torchvision -c pytorch 安装CPU版:conda install pytorch torchvision cpuonly -c pytorch 使用conda命令安装时,anaconda会根据python版本自动安装对应版本的Pytorch和cudatoolkit等相关依赖项,因此不需要用户自己再去网上搜索版本对应关系安装,十分简便。

3. 安装MMCV库并编译

sql
复制代码
pip install -U openmim
mim install mmcv-full

接着安装mmdetection库:

bash
复制代码
git clone https://github.com/open-mmlab/mmdetection.git    
cd mmdetection
pip install -v -e . #进行编译
当然,如果想直接将mmdet作为第三方库使用,可以直接pip安装:
pip install mmdet

2.2 MMDetecion简单使用

1)验证安装

在完成上述环境搭建过程后,我们如何确定自己的环境配置是否正确、能否开始运行代码了呢?官方给出了测试用的demo代码来确认你的环境是否就绪。 所使用的demo代码指的是mmdetection-master\mmdetection-master\demo\image_demo.py文件,它通过调用已有模型、加载已有权重来对图片内容进行目标检测推理,下面对其使用方法与内容进行介绍。

1. 下载权重文件 官网上以yolov3为示例,使用mim命令下载: mim download mmdet --config yolov3_mobilenetv2_320_300e_coco --dest . 下载完毕后能够在目录下找到yolov3_mobilenetv2_320_300e_coco.pyyolov3_mobilenetv2_320_300e_coco_20210719_215349-d18dff72.pth这两个文件,前者是yolov3的配置文件,包括四个基本组件:datasets、models、schedules和runtime,这些在后续会详细介绍;后者就是已经训练好的权重。

2. demo验证 使用Anaconda激活刚刚创建的虚拟环境,进入项目路径下执行运行命令:

bash
复制代码
python demo/image_demo.py demo/demo.jpg yolov3_mobilenetv2_320_300e_coco.py yolov3_mobilenetv2_320_300e_coco_20210719_215349-d18dff72.pth --device cpu --out-file result.jpg`
运行结束后,如果在自己的文件夹下多出`result.jpg`文件,并且如下图所示,成功检测到输入图片中的物体。说明环境安装配置成功,可以放心进行后续使用了。

demo.jpg检测效果

2)demo解读

好了,现在我们成功对一张图片完成了目标检测,并且进行可视化,但是这只是使用已训练好的权重、加载已有模型的推理过程,那么image_demo.py是如何对图片进行推理的呢?我们又该如何去构建自己的数据、训练自己的模型并进行推理呢?

后一个问题会在之后的章节中,从MMDetection训练、测试等过程为大家进行详细介绍,下面先对image_demo.py文件的内容进行详细解读: 首先是参数定义函数def parse_args():,它的内容与注释如下

上面我们可以看到,在这个参数定义部分中,parser这个对象通过add_argument方法来添加参数,而我们执行测试代码的命令中就包含了这些参数的内容输入,如待测试的图片路径、下载的模型配置与权重、测试用的设备(cpu)等等。 其中参数解析<class 'argparse.Namespace'>的原理:通过上面的参数解析函数我们得到了一个返回形参args,这个对象是一个argparse.Namespace类的对象,这个类的属性便是我们上面定义的config、checkpoint等数据,通过访问这些属性便可以得到一个参数值,可见这个类起到一个“参数存储器”的作用——参数被解析器parser解析后用一个Namespace参数存储器存储起来。 接着在main函数中:

ini
复制代码
#build the model from a config file and a checkpoint file`
model = init_detector(args.config, args.checkpoint, device=args.device)

这句代码由它的注释可以得知,它通过调用模块化函数init_detector来初始化模型,并访问Namespace对象的config等属性获取参数。在读取参数后就是推理过程,主要过程如下:先通过inference_detector调用加载的模型对图片进行推理,获取预测结果result,然后通过函数show_result_pyplot在输入图像上绘制预测的结果(预测框、类别与置信度)。

main函数完整内容

我们可以通过手动为参数赋值并设置断点,来查看main函数中涉及到的**关键变量argsmodelresult**的内容:

1. args

args的内容如上图,可以看到这里面就是我们传入的图片路径、模型文件、权重文件等参数,args本质上是一个参数储存器,为字典形式。

2. model

model的内容如上图,可以看到它以字典的形式储存了数据集格式CLASSES,80类表示COCO数据集的类别)、YOLOV3模型的网络结构backbonebbox_head等组件,后续文章会详细解读)、以及测试方法test_cfg,其中包含了模型推理时的相关配置。另外需要注意的是,train_cfg的值为None,这是因为该模型仅在推理过程使用。

3. result

result的内容如上图,可以发现它是一个长度为80的列表list,80这个数字大家是不是很眼熟?这正是其对应的数据集COCO下的类别,也就是说推理得到的类别数量和训练是一样的。这个list中的每个元素都对应一个类别的预测内容,长度为(n,5)n为预测到的某一类别物体的数量,而5表示水平预测框的4个定位参数(xmin,ymin,xmax,ymax)+1个预测置信度,我们查看result[1]={ndarray:(2,5)}为例:

如上,预测到2个对象,数组给出它们的位置和预测置信度,可以发现这一类别的两个预测对象置信度较低,所以会被后处理过滤掉。

至此MMDetection的安装、测试以及demo运行部分便完成了,下一篇文章将结合代码,为大家先从OpenMMLab系列的底层模块MMCV讲起,解析它的核心组件和框架原理。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/608046.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开始卷TED:第1篇 —— 《Embrace the near win》—— part: 2

But this is the thing: What gets us to convert success into mastery? 问题来了&#xff1a;我们如何将一次成功转化为卓越的成就呢&#xff1f; mastery convert This is a question I’ve long asked myself. I think it comes when we start to value the gift of a n…

前端常用js、css效果

前端常用js效果 效果参考代码文本横向滚动文本无限滚动无缝轮播无缝滚动盒子上下移动樱花飘落 效果 主要整理了几个常用的&#xff0c;方便平时做项目的时候参考 文本横向滚动 文本无限滚动 无缝轮播 无缝滚动 盒子上下滚动 樱花飘落效果 参考代码 文本横向滚动 <!DOCTYP…

图连通性,Tarjan算法

前言 通常说的Tarjan算法指的是计算机科学家Robert Tarjan提出的多个与图连通性有关的算法&#xff0c;通常包括&#xff1a; 强连通性 有向图的强连通分量&#xff08;SCC&#xff09;缩点 无向图的边双连通性 割边无向图的边双连通&#xff08;e-DCC&#xff09;分量缩点 无…

美餐支付 - PHP代碼实现

前言 背景 前段时间&#xff0c;因接手的项目需要实现 美餐支付 的功能对接 在此记录一下鄙人的实现步骤&#xff0c;方便有需要的道友参考借鉴 场景描述 我们的 “现代膳食” 售卖机&#xff0c;可以在屏幕上显示可配送的餐食 用户选中商品后&#xff0c;点击购买 选择 “美餐…

MyBatis-Plus Generator代码生成器

1.加入mybatis-plus相关依赖 <dependency><groupId>com.baomidou</groupId><artifactId>mybatis-plus-boot-starter</artifactId><version>3.5.1</version> </dependency><dependency><groupId>com.baomidou<…

Git 忽略提交 .gitignore

Git 忽略提交 .gitignore 在使用Git的过程中&#xff0c;我们喜欢有的文件比如日志&#xff0c;临时文件&#xff0c;编译的中间文件等不要提交到代码仓库&#xff0c;这时就要设置相应的忽略规则&#xff0c;来忽略这些文件的提交。 Git 忽略文件提交的方法 有三种方法可以实…

铸铁检验平台主要应用在哪些行业中——河北北重

铸铁检验平台可应用于以下行业&#xff1a; 汽车制造业&#xff1a;用于检验汽车零部件的铸铁材质和质量&#xff0c;以确保零部件的可靠性和耐用性。 机械制造业&#xff1a;用于检验铸铁机械零部件的质量和性能&#xff0c;以确保机械设备的稳定运行。 建筑工程&#xff1a…

《罗素论教育》笔记

目录 全书架构 书简介 经典摘录 一、教育的理想 教育的基本原理 教育的目的 二、品性的教育 一岁前的教育 主要是2岁到6岁的教育 三、智力教育 14岁前的课程安排 最后的学年 大学教育 四、结束语 全书架构 书简介 经典摘录 一、教育的理想 教育的基本原理 1、我…

ROS学习笔记(二):话题通信、服务通信的了解和对应节点的搭建(C++)

ROS学习笔记&#xff08;二&#xff09;&#xff1a;话题通信、服务通信的了解和对应节点的搭建&#xff08;C和Python&#xff09; 前言一、Topics话题通信&#xff08;C&#xff09;0、自定义msg消息类型文件1、发布者&#xff08;Publisher&#xff09;2、订阅者&#xff08…

thinkphp递归实现无限级子分类合并上级children

//设别分类列表public function getCategoryList(){$list = Db::name(categorys)->select(

【Python机器学习】决策树的优缺点

控制决策树模型复杂度的参数是预剪枝参数&#xff0c;它在树完全展开之前停止树的构造。 决策树的优点&#xff1a; 1、得到的模型很容易可视化 2、算法完全不受数据缩放的影响 决策树算法不需要特征预处理&#xff0c;比如归一化或标准化。特别是特征的尺度完全不一样时或…

MODBUS转PROFINET网关与全数字交流伺服配置案例

MODBUS转PROFINET网关连接与全数字交流伺服驱动系统的配置案例&#xff0c;这一通信方式极大地简化了工业自动化系统中的数据传输和控制过程。变频器和伺服电机可以实现数据交流和控制指令的实时传输&#xff0c;从而实现更精确更高效的生产过程。 案例简介&#xff1a;本案例是…

跟我学java|Stream流式编程——Stream 基础

一、流式编程的概念和作用 Java 流(Stream)是一连串的元素序列&#xff0c;可以进行各种操作以实现数据的转换和处理。流式编程的概念基于函数式编程的思想&#xff0c;旨在简化代码&#xff0c;提高可读性和可维护性。 Java Stream 的主要作用有以下几个方面&#xff1a; 简化…

苹果Find My查找芯片-伦茨科技ST17H6x支持苹果Find My认证

Apple「查找」Find My可通过庞大的“Apple Find My Network” 实现全球查找功能。无数iOS、iPadOS、macOS、watchOS激活设备与Find My 设备结合在一起&#xff0c;无需连接到Wi-Fi或者蜂窝网络&#xff0c;用户也可以给遗失的设备定位。对于任何iOS、iPadOS、macOS、watchOS设备…

LeetCode 49. 字母异位词分组

49. 字母异位词分组 给你一个字符串数组&#xff0c;请你将 字母异位词 组合在一起。可以按任意顺序返回结果列表。 字母异位词 是由重新排列源单词的所有字母得到的一个新单词。 示例 1: 输入: strs ["eat", "tea", "tan", "ate"…

el-dialog的modal-class

今天发现个事 <el-dialogv-model"bindDialogVisible":title"bindDialogTitle"append-to-bodyclose-on-press-escapedraggablemodal-class"bindNdevice-dialog"width"500px"></el-dialog> 这个样式这样写生效 <style …

【Docker】私有仓库

目录 1.搭建 2. 上传镜像 3.拉取镜像 1.搭建 1.拉取私有仓库的镜像 docker pull registry 2.创建私有仓库容器 docker run -id --nameregistry -p 5000:5000 registry 3.打开浏览器,输入地址&#xff08;http:私有仓库服务器ip:5000/v2/_catalog&#xff09; 出现如图表示私…

什么是diffusion模型?

Diffusion模型是一种生成模型&#xff0c;用于在深度学习和人工智能领域生成高质量、逼真的数据&#xff0c;尤其是在图像生成方面表现出色。这种模型的基本思想是首先生成一个随机的噪声数据&#xff0c;然后逐步将这个噪声转化为有意义的数据&#xff08;如图像&#xff09;&…

【数据结构】栈的基本知识详解

栈的基本概念与基本操作 导言一、栈的基本概念1.1 栈的定义1.2 栈的重要术语1.3 栈的数学性质 二、栈的基本操作结语 导言 大家好&#xff0c;很高兴又和大家见面了&#xff01;&#xff01;&#xff01; 今天开始&#xff0c;咱们将正式进入【数据结构】第三章的内容介绍。在…

MySql02:增删改查

1.外键索引(外键约束)2.DML - 添加 、修改 、删除2.1添加 insert2.2修改 update2.3删除 delete2.4删除的三种方式 3.DQL - 查询关键字3.1 普通查询3.2 as 关键字3.3 distinct 去除重复的内容3.4 where 条件3.5 between and 关键字3.6 like 实现模糊查询3.7 in 范围查询3.8 null…