python目标检测答案_入门指南:用Python实现实时目标检测(内附代码)

全文共6821字,预计学习时长20分钟

来源:Pexels

从自动驾驶汽车检测路上的物体,到通过复杂的面部及身体语言识别发现可能的犯罪活动。多年来,研究人员一直在探索让机器通过视觉识别物体的可能性。

这一特殊领域被称为计算机视觉 (Computer Vision, CV),在现代生活中有着广泛的应用。

目标检测 (ObjectDetection) 也是计算机视觉最酷的应用之一,这是不容置疑的事实。

现在的CV工具能够轻松地将目标检测应用于图片甚至是直播视频。本文将简单地展示如何用TensorFlow创建实时目标检测器。

建立一个简单的目标检测器

设置要求:

TensorFlow版本在1.15.0或以上

执行pip install TensorFlow安装最新版本

一切就绪,现在开始吧!

设置环境

第一步:从Github上下载或复制TensorFlow目标检测的代码到本地计算机

在终端运行如下命令:

git clonehttps://github.com/tensorflow/models.git

第二步:安装依赖项

下一步是确定计算机上配备了运行目标检测器所需的库和组件。

下面列举了本项目所依赖的库。(大部分依赖都是TensorFlow自带的)

· Cython

· contextlib2

· pillow

· lxml

· matplotlib

若有遗漏的组件,在运行环境中执行pip install即可。

第三步:安装Protobuf编译器

谷歌的Protobuf,又称Protocol buffers,是一种语言无关、平台无关、可扩展的序列化结构数据的机制。Protobuf帮助程序员定义数据结构,轻松地在各种数据流中使用各种语言进行编写和读取结构数据。

Protobuf也是本项目的依赖之一。点击这里了解更多关于Protobufs的知识。接下来把Protobuf安装到计算机上。

打开终端或者打开命令提示符,将地址改为复制的代码仓库,在终端执行如下命令:

cd models/research \

wget -Oprotobuf.zip https://github.com/protocolbuffers/protobuf/releases/download/v3.9.1/protoc-3.9.1-osx-x86_64.zip\

unzipprotobuf.zip

注意:请务必在models/research目录解压protobuf.zip文件。来源:Pexels

第四步:编辑Protobuf编译器

从research/ directory目录中执行如下命令编辑Protobuf编译器:

./bin/protoc object_detection/protos/*.proto--python_out=.

用Python实现目标检测

现在所有的依赖项都已经安装完毕,可以用Python实现目标检测了。

在下载的代码仓库中,将目录更改为:

models/research/object_detection

这个目录下有一个叫object_detection_tutorial.ipynb的ipython notebook。该文件是演示目标检测算法的demo,在执行时会用到指定的模型:

ssd_mobilenet_v1_coco_2017_11_17

这一测试会识别代码库中提供的两张测试图片。下面是测试结果之一:

要检测直播视频中的目标还需要一些微调。在同一文件夹中新建一个Jupyter notebook,按照下面的代码操作:

[1]:

import numpy as np

import os

import six.moves.urllib as urllib

import sys

import tarfile

import tensorflow as tf

import zipfile

from distutils.version import StrictVersion

from collections import defaultdict

from io import StringIO

from matplotlib import pyplot as plt

from PIL import Image

# This isneeded since the notebook is stored in the object_detection folder.

sys.path.append("..")

from utils import ops as utils_ops

if StrictVersion(tf.__version__) < StrictVersion('1.12.0'):

raise ImportError('Please upgrade your TensorFlow installation to v1.12.*.')

[2]:

# This isneeded to display the images.

get_ipython().run_line_magic('matplotlib', 'inline')

[3]:

# Objectdetection imports

# Here arethe imports from the object detection module.

from utils import label_map_util

from utils import visualization_utils as vis_util

[4]:

# Modelpreparation

# Anymodel exported using the `export_inference_graph.py` tool can be loaded heresimply by changing `PATH_TO_FROZEN_GRAPH` to point to a new .pb file.

# Bydefault we use an "SSD with Mobilenet" model here.

#See https://github.com/tensorflow/models/blob/master/research/object_detection/g3doc/detection_model_zoo.md

#for alist of other models that can be run out-of-the-box with varying speeds andaccuracies.

# Whatmodel to download.

MODEL_NAME= 'ssd_mobilenet_v1_coco_2017_11_17'

MODEL_FILE= MODEL_NAME + '.tar.gz'

DOWNLOAD_BASE= 'http://download.tensorflow.org/models/object_detection/'

# Path tofrozen detection graph. This is the actual model that is used for the objectdetection.

PATH_TO_FROZEN_GRAPH= MODEL_NAME + '/frozen_inference_graph.pb'

# List ofthe strings that is used to add correct label for each box.

PATH_TO_LABELS= os.path.join('data', 'mscoco_label_map.pbtxt')

[5]:

#DownloadModel

opener =urllib.request.URLopener()

opener.retrieve(DOWNLOAD_BASE+ MODEL_FILE, MODEL_FILE)

tar_file =tarfile.open(MODEL_FILE)

for file in tar_file.getmembers():

file_name= os.path.basename(file.name)

if'frozen_inference_graph.pb'in file_name:

tar_file.extract(file,os.getcwd())

[6]:

# Load a(frozen) Tensorflow model into memory.

detection_graph= tf.Graph()

with detection_graph.as_default():

od_graph_def= tf.GraphDef()

withtf.gfile.GFile(PATH_TO_FROZEN_GRAPH, 'rb') as fid:

serialized_graph= fid.read()

od_graph_def.ParseFromString(serialized_graph)

tf.import_graph_def(od_graph_def,name='')

[7]:

# Loadinglabel map

# Labelmaps map indices to category names, so that when our convolution networkpredicts `5`,

#we knowthat this corresponds to `airplane`. Here we use internal utilityfunctions,

#butanything that returns a dictionary mapping integers to appropriate stringlabels would be fine

category_index= label_map_util.create_category_index_from_labelmap(PATH_TO_LABELS,use_display_name=True)

[8]:

defrun_inference_for_single_image(image, graph):

with graph.as_default():

with tf.Session() as sess:

# Get handles to input and output tensors

ops= tf.get_default_graph().get_operations()

all_tensor_names= {output.name for op in ops for output in op.outputs}

tensor_dict= {}

for key in [

'num_detections', 'detection_boxes', 'detection_scores',

'detection_classes', 'detection_masks']:

tensor_name= key + ':0'

if tensor_name in all_tensor_names:

tensor_dict[key]= tf.get_default_graph().get_tensor_by_name(tensor_name)

if'detection_masks'in tensor_dict:

# The following processing is only for single image

detection_boxes= tf.squeeze(tensor_dict['detection_boxes'], [0])

detection_masks= tf.squeeze(tensor_dict['detection_masks'], [0])

# Reframe is required to translate mask from boxcoordinates to image coordinates and fit the image size.

real_num_detection= tf.cast(tensor_dict['num_detections'][0], tf.int32)

detection_boxes= tf.slice(detection_boxes, [0, 0], [real_num_detection, -1])

detection_masks= tf.slice(detection_masks, [0, 0, 0], [real_num_detection, -1, -1])

detection_masks_reframed= utils_ops.reframe_box_masks_to_image_masks(

detection_masks,detection_boxes, image.shape[1],image.shape[2])

detection_masks_reframed= tf.cast(

tf.greater(detection_masks_reframed,0.5),tf.uint8)

# Follow the convention by adding back the batchdimension

tensor_dict['detection_masks'] =tf.expand_dims(

detection_masks_reframed,0)

image_tensor= tf.get_default_graph().get_tensor_by_name('image_tensor:0')

# Run inference

output_dict= sess.run(tensor_dict, feed_dict={image_tensor: image})

# all outputs are float32 numpy arrays, so convert typesas appropriate

output_dict['num_detections'] =int(output_dict['num_detections'][0])

output_dict['detection_classes'] =output_dict[

'detection_classes'][0].astype(np.int64)

output_dict['detection_boxes'] =output_dict['detection_boxes'][0]

output_dict['detection_scores'] =output_dict['detection_scores'][0]

if'detection_masks'in output_dict:

output_dict['detection_masks'] =output_dict['detection_masks'][0]

return output_dict

[9]:

import cv2

cam =cv2.cv2.VideoCapture(0)

rolling = True

while (rolling):

ret,image_np = cam.read()

image_np_expanded= np.expand_dims(image_np, axis=0)

# Actual detection.

output_dict= run_inference_for_single_image(image_np_expanded, detection_graph)

# Visualization of the results of a detection.

vis_util.visualize_boxes_and_labels_on_image_array(

image_np,

output_dict['detection_boxes'],

output_dict['detection_classes'],

output_dict['detection_scores'],

category_index,

instance_masks=output_dict.get('detection_masks'),

use_normalized_coordinates=True,

line_thickness=8)

cv2.imshow('image', cv2.resize(image_np,(1000,800)))

if cv2.waitKey(25) & 0xFF == ord('q'):

break

cv2.destroyAllWindows()

cam.release()

在运行Jupyter notebook时,网络摄影系统会开启并检测所有原始模型训练过的物品类别。来源:Pexels

感谢阅读本文,如果有什么建议,欢迎在评论区积极发言哟~

留言 点赞 关注

我们一起分享AI学习与发展的干货

编译组:蔡思齐、孙梦琪

如需转载,请后台留言,遵守转载规范

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/502795.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

sql md5函数_【学习笔记】常见漏洞:SQL注入的利用与防御

第 21 课 SQL注入的利用与防御课程入口(付费)个人背景李&#xff0c;本科&#xff0c;电子信息工程专业&#xff0c;毕业一年半&#xff0c;有JavaScript的&#xff0c;PHP&#xff0c;Python的语言基础&#xff0c;目前自学网络安全中。SQL注入的利用与防御01 SQL盲注1.1 S…

管理linux的快捷键,Linux快捷键及系统管理命令(1)

快捷键&#xff1a;ctrlU&#xff1a;快速删除光标前所有字符内容。ctrlK&#xff1a;快速删除从当前光标到行尾的所有字符内容。ctrlL&#xff1a;快速清空当前屏幕中显示的内容&#xff0c;只在左上角显示命令提示符。ctrlC&#xff1a;取消当前命令行的编辑&#xff0c;并切…

docker -v 覆盖了容器中的文件_浅谈docker中宿主机和容器之间互相copy文件的两种方式,欢迎补充...

在dokcer的日常使用过程中&#xff0c;我们可能会遇到将宿主机内文件/目录copy到容器内&#xff0c;或者将容器的文件/目录copy到宿主机中&#xff0c;下面我们就来简单的谈一下关于这种情况的两种操作。1、Docker cp命令&#xff1a;用于容器与主机之间的数据copy语法&#xf…

线性代数第九版pdf英文_斯坦福CS229机器学习课程的数学基础(线性代数)翻译完成...

文章转载自公众号 机器学习初学者 &#xff0c; 作者 机器学习初学者Stanford cs229 manchine learning课程&#xff0c;相比于Coursera中的机器学习有更多的数学要求和公式的推导&#xff0c;课程全英文&#xff0c;基础材料部分还没有翻译。这个基础材料主要分为线性代数和概…

用python读取股票价格_Python读取文件并给出股票价格

我使用的是ystockquote&#xff0c;可以找到here。基本上&#xff0c;我有一个包含我所有股票符号的文件&#xff0c;然后我用python将其笔下并显示每只股票的价格。以下是我目前为止的代码&#xff1a;import ystockquote def intro(): # Here you enter the name of your fil…

ppc linux 性能,用profile和oprofile监视视linux性能!

profile使用&#xff1a;profile功能是架构无关的&#xff0c;可以用来监视linux内核的4项功能&#xff0c;即&#xff1a;11 #define CPU_PROFILING 112 #define SCHED_PROFILING 213 #define SLEEP_PROFILING 314 #define KVM_PROFILING 4要想找开profile功能&#xff0c…

bisect git 使用_Git使用过程中的一些常见场景问题总结

之前在公司内部推Git&#xff0c;写了一份git使用教程&#xff0c;后来又在团队内部做了一次分享&#xff0c;内容是关于Git使用过程中经常会遇到的一些场景&#xff0c;并有了这份总结。git基础基于feature的工作流添加忽略文件 .gitignore (http://gitignore.io/)基于develop…

c 多文件全局变量_C语言开发单片机为什么大多数都采用全局变量的形式?

点击上方蓝字关注我哦&#xff5e;01前言全局变量简直就是嵌入式系统的戈兰高地。冲突最激烈的双方是1. 做控制的工程师 2. 做非嵌入式的软件工程师。02做控制的工程师特点他们普遍的理解就是“变量都写成全局该有多方便”。我之前面试过一个非常有名的做控制实验室里出来的PhD…

linux耳机插拔检测,Android应用开发之耳机插拔处理两种方式

本文将带你了解Android应用开发[RK3288][Android6.0] 耳机插拔处理两种方式&#xff0c;希望本文对大家学Android有所帮助。[RK3288][Android6.0] 耳机插拔处理两种方式。Platform: RockchipOS: Android 6.0Kernel: 3.10.92系统对耳机插拔处理的方式有两种&#xff0c;一种…

医学图像处理_专刊征稿|医学图像处理中的认知计算

认知科学是20世纪世界科学标志性的新兴研究门类&#xff0c;它作为探究人脑或心智工作机制的前沿性尖端学科&#xff0c;已经引起了全世界科学家们的广泛关注。认知计算代表一种全新的计算模式&#xff0c;它包含信息分析&#xff0c;自然语言处理和机器学习领域的大量技术创新…

python 如何判断一个函数执行完成_Python 函数为什么会默认返回 None?

&#x1f446; “Python猫” &#xff0c;一个值得加星标的公众号Python 有一项默认的做法&#xff0c;很多编程语言都没有——它的所有函数都会有一个返回值&#xff0c;不管你有没有写 return 语句。 本文出自“Python为什么”系列&#xff0c;在正式开始之前&#xff0c;我们…

中美线径对照表_中国线径与英美德线规对照表

德DIN*线径(mm)实际截面(mm2)标准截面(mm2)线号线径(mm)线号线径(mm)线径(mm)7/012.712.56/011.7854/011.68411.298.52001005/010.9733/010.40411.21078.5400804/010.1610963.6200633/09.4492/09.26692/08.839850.27005008.2308.253817.627.139.59004027.0117.3487.16.331.1700…

不在 sudoers 文件中。此事将被报告_快餐包装中检出致癌物质?麦当劳、汉堡王回应!...

薯条汉堡、雪碧可乐已然成为大家的用餐首选之一一周吃了两次以上的人相信也不在少数可最近一则“麦当劳、汉堡王等快餐包装中检出致癌物质”的消息却让许多人吓出了一身冷汗而且迅速登上热搜榜…近日&#xff0c;环保组织的一份报告称&#xff0c;美国当地麦当劳McDonald’s、汉…

lichee linux nfs,SPI Flash 系统编译

在一些低成本应用场景&#xff0c;需要在SPI flash上启动系统&#xff0c;这需要对Uboot和系统镜像做些适配。本文介绍SPI Flash镜像的制作过程。这里 使用 MX25L25645G, 32M SPI flash 作为启动介质&#xff0c;规划分区如下&#xff1a;分区序号分区大小分区作用地址空间及分…

tensorflow越跑越慢_tensorflow如何解决越运行越慢的问题

这几天写tensorflow的时候发现随着迭代的次数越来越多&#xff0c;tensorflow跑的速度越来越慢。查找才发现是tensorflow不断的给之前的图里加节点&#xff0c;导致占用的内存越来越大&#xff0c;然后我尝试了网上的各种方法&#xff0c;终于发现了一个靠谱的方法&#xff0c;…

propertysource注解_Java开发必须掌握的 20+ 种 Spring 常用注解

作者&#xff1a;IT_faquir链接&#xff1a;https://blog.csdn.net/IT_faquir注解本身没有功能的&#xff0c;就和xml一样。注解和xml都是一种元数据&#xff0c;元数据即解释数据的数据&#xff0c;这就是所谓配置。本文主要罗列Spring|SpringMVC相关注解的简介。Spring部分1.…

linux协议栈劫持,Linux系统优化之TCP协议栈优化-基本篇1

因为在做爬虫分布式系统的过程中&#xff0c;涉及到了一些linux系统优化方面的知识&#xff0c;所以来总结一下&#xff0c;我们会对linux的不同模块做相关的基本优化&#xff0c;这篇文章主要讲述的是关于tcp协议栈的参数优化。1.机器环境Linux EOS01 2.6.32-358.el6.x86_64 #…

datapumpdir oracle_oracle_datapump创建外部表案例

一、datapump创建外部表&#xff0c;数据来源于内部实体表 --首先创建 scott.countries实体表&#xff0c;用于做实验 SQLgt; create table scott.cou一、datapump创建外部表&#xff0c;数据来源于内部实体表--首先创建 scott.countries实体表&#xff0c;用于做实验SQL> c…

linux 百度地图离线sdk,Android开放百度地图集成

1、创建应用 获取AK (我理解为Application key)通过百度账号登录百度地图开放平台&#xff0c;进入API控制台 http://lbsyun.baidu.com/apiconsole/key 创建自己的应用&#xff0c;输入应用名称 &#xff0c;选择Android SDK 应用类型&#xff0c;选择需要的服务(默认全选) 输入…

activiti7流程设计器_基于容器和微服务应用的架构:容器设计原则

微服务提供了巨大的好处&#xff0c;但也带来了巨大的新挑战。在创建基于微服务的应用程序时&#xff0c;微服务体系结构模式是最基本的支柱。在本指南的前面&#xff0c;您学习了关于容器和Docker的基本概念。这是开始使用容器所需的最低信息。尽管&#xff0c;即使容器是微服…