OpenCv高阶(八)——摄像头调用、摄像头OCR

文章目录

  • 前言
  • 一、摄像头调用通用方法
      • 1、导入必要的库
      • 2、创建摄像头接口
  • 二、摄像头OCR
    • 1.引入库
    • 2、定义函数
      • (1)定义显示opencv显示函数
      • (2)保持宽高比的缩放函数
      • (3)坐标点排序函数
      • (4) 四点透视变换实现
    • 3、读取摄像头显示摄像头画面并做灰度处理
    • 4、做中值滤波并使用canny边缘检测
    • 5、轮廓检测
    • 6、遍历轮廓
    • 7、透视变换
    • 完整代码展示
  • 总结
      • 应用
        • 文档处理
        • 车牌识别
        • 身份证识别
        • 场景文字识别


前言

摄像头 OCR 是指利用摄像头采集图像信息,然后通过光学字符识别(OCR)技术对图像中的文字进行识别和处理的一种技术手段。

一、摄像头调用通用方法

1、导入必要的库

import cv2
import numpy as np

2、创建摄像头接口

读取本地的视频文件或者摄像头,接收的参数为视频文件的地址,或者摄像头的名称(一般0指的是电脑自身的摄像头,1则是外接的摄像头)

video_capture=cv2.VideoCapture('../data/test.avi')#判断视频文件或者摄像头是否正常读取,如果读取失败则返回提示信息
if not  video_capture.isOpened():print("视频打开失败")exit()

视频以及摄像头文件我们都可以把它理解成老式的电影,一段视频以及摄像头读取的画面都可以看成是一张图片一张图片的播放,只是视频和摄像头的播放速度很快,导致我们视觉上认为动作是连贯的,帧率也就是一秒播放多少张图片。

在这里插入图片描述
因此,在使用opencv读取摄像头和视频文件时我们采用循环的方法来不断获取摄像头读取的画面。
当我们要使用opencv来做视觉方向的问题时,我们就可以调用摄像头,对对读取到的每一帧画面做视觉方面的处理,来达到与摄像头结合的动态效果。

while True:ret,frame=video_capture.read()#ret是一个标志,检测摄像头是否读取成功,frame则是接收到的画面,是一张一张的图片if not ret:break#设置这个if判断,是为了手动控制跳出循环,当我们按下ESC键时跳出循环停止读取画面。if cv2.waitKey(100)==27:break#释放摄像头资源
video_capture.release()
cv2.destroyAllWindows()

二、摄像头OCR

简单处理文字,将不正的文档扶正并使文档的字迹更清晰。

1.引入库

import numpy as np
import cv2

2、定义函数

(1)定义显示opencv显示函数

def cv_show(name,value):cv2.imshow(name,value)cv2.waitKey(50)

(2)保持宽高比的缩放函数

def resize(image, width=None, height=None, inter=cv2.INTER_AREA):dim=None(h, w) = image.shape[:2]  # 获取原始高度和宽度(兼容灰度/彩色图)# 尺寸计算逻辑if width is None and height is None:return image  # 无缩放直接返回if width is None:r = height / float(h)  # 计算高度缩放比例dim = (int(w * r), height)  # 新尺寸元组(宽度, 高度)else:r = width / float(w)    # 计算宽度缩放比例dim = (width, int(h * r))# 执行缩放操作resized = cv2.resize(image, dim, interpolation=inter)return resized

(3)坐标点排序函数

def order_points(pts):rect = np.zeros((4, 2), dtype="float32")  # 初始化4x2矩阵#按顺序找到对应的坐标0123,分别是左上右上右下、左下# 计算坐标点x+y的和s = pts.sum(axis=1)  # 形状:(4,) ,对矩阵的每一行进行求和操作rect[0] = pts[np.argmin(s)]  # 左上角:x+y最小rect[2] = pts[np.argmax(s)]  # 右下角:x+y最大# 计算坐标点x-y的差diff = np.diff(pts, axis=1)  # 形状:(4,1)rect[1] = pts[np.argmin(diff)]  # 右上角:x-y最小(即y相对较大)rect[3] = pts[np.argmax(diff)]  # 左下角:x-y最大(即y相对较小)return rect  # 返回有序坐标:[左上, 右上, 右下, 左下]

(4) 四点透视变换实现

def four_point_transform(image, pts):# 坐标排序(关键步骤!)rect = order_points(pts)(tl, tr, br, bl) = rect  # 解构赋值四个顶点# 计算输出图像的宽度(取两组对边最大值)widthA = np.sqrt(((br[0] - bl[0]) ** 2) + (br[1] - bl[1]) ** 2)widthB = np.sqrt(((tr[0] - tl[0]) ** 2) + (tr[1] - tl[1]) ** 2)maxWidth = max(int(widthA), int(widthB))# 计算输出图像的高度(同理)heightA = np.sqrt(((tr[0] - br[0]) ** 2) + (tr[1] - br[1]) ** 2)heightB = np.sqrt(((tl[0] - bl[0]) ** 2) + (tl[1] - bl[1]) ** 2)maxHeight = max(int(heightA), int(heightB))# 定义目标点坐标(规范坐标系)dst = np.array([[0, 0],[maxWidth - 1, 0],          # 宽度方向预留1像素边界[maxWidth - 1, maxHeight - 1],[0, maxHeight - 1]], dtype="float32")# 计算透视变换矩阵(核心数学操作)M = cv2.getPerspectiveTransform(rect, dst)# 执行透视变换warped = cv2.warpPerspective(image, M, (maxWidth, maxHeight))return warped

3、读取摄像头显示摄像头画面并做灰度处理

#读取输入
cap=cv2.VideoCapture(0)
if not cap.isOpened():print("摄像头打开失败")exit()while True:flag=0  #是否检测到文档的标志ret,frame=cap.read()orig=frame.copy()if not ret: #读取失败则退出循环print("不能读取摄像头")breakcv_show('iamge',frame)gray=cv2.cvtColor(frame,cv2.COLOR_BGRA2GRAY)

4、做中值滤波并使用canny边缘检测

gray=cv2.medianBlur(gray,3)
edged=cv2.Canny(gray,75,200)
cv_show('i',edged)

中值滤波核大小 3 适用于720p分辨率

Canny阈值可改为自适应算法(如基于图像亮度百分比)

5、轮廓检测

#轮廓检测cnts=cv2.findContours(edged,cv2.RETR_EXTERNAL,cv2.CHAIN_APPROX_SIMPLE)[-2]cnts=sorted(cnts,key=cv2.contourArea,reverse=True)[:3]# 取面积前三的轮廓image_contours=cv2.drawContours(orig,cnts,-1,(0,255,0),2) # 多边形近似cv_show('image_contours',image_contours)

RETR_EXTERNAL 只检测最外层轮廓(假设文档无嵌套)

面积阈值 20000 需根据摄像头分辨率调整(例如:1280x720下约为2%画面占比)

6、遍历轮廓

 #遍历轮廓做透视变换for c in cnts:peri=cv2.arcLength(c,True)#做轮廓近似approx=cv2.approxPolyDP(c,0.01*peri,True)area=cv2.contourArea(approx)#做透视变换要求轮廓近似满足是4个点,挑选出符合要求的结果if area>20000 and len(approx)==4:screenCnt=approxflag=1  #标识找到了文档print(peri,area)print('检测到文档')break

7、透视变换

if flag==1:image_contours=cv2.drawContours(frame,[screenCnt],0,(0,255,0),2)cv_show('image',image_contours)#左四点转换,扶正后的坐标warped=four_point_transform(orig,screenCnt.reshape(4,2))cv_show('warped',warped)cap.release()
cv2.destroyAllWindows()

完整代码展示

import numpy as np
import cv2def cv_show(name,value):cv2.imshow(name,value)cv2.waitKey(50)def resize(image,width=None,height=None,inter=cv2.INTER_AREA):dim=None(h,w)=image.shape[:2]if width is None and height is None:return imageif width is None:r=height/float(h)dim=(int(w*r),height)else:r=width/float(w)dim=(width,int(h*r))resized=cv2.resize(image,dim,interpolation=inter)return resizeddef order_points(pts):#一共四个坐标点rect=np.zeros((4,2),dtype='float32')#按顺序找到对应的坐标0123,分别是左上右上右下、左下s=pts.sum(axis=1)   #对矩阵的每一行进行求和操作rect[0]=pts[np.argmin(s)]rect[2]=pts[np.argmax(s)]diff=np.diff(pts,axis=1)rect[1]=pts[np.argmin(diff)]rect[3]=pts[np.argmax(diff)]return rectdef four_point_transform(image,pts):#获取输入的坐标点rect=order_points(pts)(tl,tr,br,bl)=rect#计算输入的w和h值widthA=np.sqrt(((br[0]-bl[0])**2) +( br[1] - bl[1])**2)widthB = np.sqrt(((tr[0] - tl[0]) ** 2) + (tr[1] - tl[1]) ** 2)maxwidth=max(int(widthA),int(widthB))heightA=np.sqrt(((tr[0]-br[0])**2) +( tr[1] - br[1])**2)heightB=np.sqrt(((tl[0]-bl[0])**2) +( tl[1] - bl[1])**2)maxheight=max(int(heightA),int(heightB))dst=np.array([[0,0],[maxwidth,0],[maxwidth,maxheight],[0,maxheight]],dtype='float32')M=cv2.getPerspectiveTransform(rect,dst)warped=cv2.warpPerspective(image,M,(maxwidth,maxheight))return warped#读取输入
cap=cv2.VideoCapture(0)
if not cap.isOpened():print("摄像头打开失败")exit()while True:flag=0  #是否检测到文档的标志ret,frame=cap.read()orig=frame.copy()if not ret: #读取失败则退出循环print("不能读取摄像头")breakcv_show('iamge',frame)gray=cv2.cvtColor(frame,cv2.COLOR_BGRA2GRAY)gray=cv2.medianBlur(gray,3)edged=cv2.Canny(gray,75,200)cv_show('i',edged)#轮廓检测cnts=cv2.findContours(edged,cv2.RETR_EXTERNAL,cv2.CHAIN_APPROX_SIMPLE)[-2]cnts=sorted(cnts,key=cv2.contourArea,reverse=True)[:3]image_contours=cv2.drawContours(orig,cnts,-1,(0,255,0),2)cv_show('image_contours',image_contours)#遍历轮廓做透视变换for c in cnts:peri=cv2.arcLength(c,True)#做轮廓近似approx=cv2.approxPolyDP(c,0.01*peri,True)area=cv2.contourArea(approx)#做透视变换要求轮廓近似满足是4个点,挑选出符合要求的结果if area>20000 and len(approx)==4:screenCnt=approxflag=1  #标识找到了文档print(peri,area)print('检测到文档')breakif flag==1:image_contours=cv2.drawContours(frame,[screenCnt],0,(0,255,0),2)cv_show('image',image_contours)#左四点转换,扶正后的坐标warped=four_point_transform(orig,screenCnt.reshape(4,2))cv_show('warped',warped)cap.release()
cv2.destroyAllWindows()

总结

应用

文档处理

快速将纸质文档中的文字转换为电子文本,方便编辑、存储和检索,提高文字处理效率。

车牌识别

在智能交通系统中,通过摄像头拍摄车牌图像,利用 OCR 技术自动识别车牌号码,实现车辆的自动管理和收费等功能。

身份证识别

在一些需要身份验证的场合,如银行开户、酒店入住等,通过摄像头 OCR 快速识别身份证上的文字信息,提高信息录入效率和准确性。

场景文字识别

在图像和视频内容分析中,识别场景中的文字,如街道标志、广告招牌等,为图像理解和信息检索提供支持。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/81470.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

特斯拉虚拟电厂:能源互联网时代的分布式革命

在双碳目标与能源转型的双重驱动下,特斯拉虚拟电厂(Virtual Power Plant, VPP)通过数字孪生技术与能源系统的深度融合,重构了传统电力系统的运行范式。本文从系统架构、工程实践、技术挑战三个维度,深度解析这一颠覆性…

【漫话机器学习系列】258.拐点(Inflection Point)

拐点(Inflection Point)详解:定义、原理与应用 在数学分析与数据建模中,“拐点(Inflection Point)”是一个非常重要的概念。今天这篇文章,我们将结合图示,深入理解拐点的定义、数学…

语音识别——声纹识别

通过将说话人的声音与数据库中的记录声音进行比对,判断说话人是否为数据库白名单中的同一人,从而完成语音验证。目前,3D-Speaker 声纹验证的效果较为出色。 3D-Speaker 是一个开源工具包,可用于单模态和多模态的说话人验证、说话…

DeepSeek 赋能军事:重塑现代战争形态的科技密码

目录 一、引言:AI 浪潮下的军事变革与 DeepSeek 崛起二、DeepSeek 技术原理与特性剖析2.1 核心技术架构2.2 独特优势 三、DeepSeek 在军事侦察中的应用3.1 海量数据快速处理3.2 精准目标识别追踪3.3 预测潜在威胁 四、DeepSeek 在军事指挥决策中的应用4.1 战场态势实…

uWSGI是什么?

uWSGI 是一个功能强大的应用服务器,专为部署高性能 Web 应用设计,尤其适合 Python 生态系统。以下是对其核心介绍及适用场景的总结: uWSGI 是什么? uWSGI 是一个实现了 WSGI(Web Server Gateway Interface&#xff09…

Digi XBee XR 系列介绍

Digi 延续了 20 多年来亚 GHz 射频模块的传统,推出了 Digi XBee XR 系列远距离模块,包括 Digi XBee XR 900 - 已通过多个地区的预先认证 - 以及 Digi XBee XR 868 - 已通过欧洲地区应用的预先认证。 这些先进的射频模块专为远距离抗干扰无线通信而设计。…

RabbitMq C++客户端的使用

介绍 RabbitMQ 是一个开源的消息代理和队列服务器,用于在分布式系统之间传递消息。它实现了高级消息队列协议(AMQP),同时也支持其他协议如 STOMP、MQTT 等。 核心概念 Producer(生产者): 发送消息的应用程序 Consumer(消费者): 接收消息的应用程序 Q…

HTML 中的 input 标签详解

HTML 中的 input 标签详解 一、基础概念 1. 定义与作用 HTML 中的 <input> 标签是表单元素的核心组件&#xff0c;用于创建各种用户输入字段。作为一个空标签&#xff08;没有闭合标签&#xff09;&#xff0c;它通过 type 属性来决定呈现何种输入控件&#xff0c;是实…

基于Piecewise Jerk Speed Optimizer的速度规划算法(附ROS C++/Python仿真)

目录 1 时空解耦运动规划2 PJSO速度规划原理2.1 优化变量2.2 代价函数2.3 约束条件2.4 二次规划形式 3 算法仿真3.1 ROS C仿真3.2 Python仿真 1 时空解耦运动规划 在自主移动系统的运动规划体系中&#xff0c;时空解耦的递进式架构因其高效性与工程可实现性被广泛采用。这一架…

2025云上人工智能安全发展研究

随着人工智能&#xff08;AI&#xff09;技术与云计算的深度融合&#xff0c;云上AI应用场景不断扩展&#xff0c;但安全挑战也日益复杂。结合2025年的技术演进与行业实践&#xff0c;云上AI安全发展呈现以下关键趋势与应对策略&#xff1a; 一、云上AI安全的主要挑战 数据泄露…

MCU裸机程序如何移植到RTOS?

目录 1、裸机编程 2、实时操作系统 3、移植裸机程序到RTOS的步骤 步骤1&#xff1a;分析裸机代码 步骤2&#xff1a;选择并设置RTOS环境 步骤3&#xff1a;设计任务架构 步骤4&#xff1a;实现任务间通信 步骤5&#xff1a;处理硬件交互 步骤6&#xff1a;测试和调试 …

LangPDF: Empowering Your PDFs with Intelligent Language Processing

LangPDF: Empowering Your PDFs with Intelligent Language Processing Unlock Global Communication: AI-Powered PDF Translation and Beyond In an interconnected world, seamless multilingual document management is not just an advantage—it’s a necessity. LangP…

什么是dom?作用是什么

DOM 的定义 DOM&#xff08;Document Object Model&#xff0c;文档对象模型&#xff09;是 HTML 和 XML 文档的编程接口。它将文档解析为一个由节点和对象组成的树状结构&#xff0c;允许开发者通过编程方式动态访问和操作文档的内容、结构和样式。 DOM 的作用 DOM 的主要作…

当AI自我纠错:一个简单的“Wait“提示如何让模型思考更深、推理更强

原论文&#xff1a;s1: Simple test-time scaling 作者&#xff1a;Niklas Muennighoff, Zitong Yang, Weijia Shi等&#xff08;斯坦福大学、华盛顿大学、Allen AI研究所、Contextual AI&#xff09; 论文链接&#xff1a;arXiv:2501.19393 代码仓库&#xff1a;GitHub - simp…

MYSQL之基本查询(CURD)

表的增删改查 表的增加 语法: INSERT [INTO] table_name [(column [, column] ...)] VALUES (value_list) [, (value_list)] ... value_list: value, [, value] ...全列插入和指定列插入 //创建一张学生表 CREATE TABLE students (id INT UNSIGNED PRIMARY KEY AUTO_INCREM…

STM32简易计算机设计

运用 A0上拉按钮和 A1 A2下拉按钮设计按键功能 加上独特的算法检测设计&#xff0c;先计算&#xff08;&#xff09;内在计算乘除在计算加减的值在计算乘除优先级最后计算加减优先级 #include "stm32f10x.h" #include <stdio.h> #include <stdlib.h>…

sparkSQL读入csv文件写入mysql

思路 示例 &#xff08;年龄>18改成>20) mysql的字符集问题 把user改成person “让字符集认识中文”

计算机视觉与深度学习 | Python 实现SO-CNN-BiLSTM多输入单输出回归预测(完整源码和源码详解)

SO-CNN-BiLSTM **一、代码实现****1. 环境准备****2. 数据生成(示例数据)****3. 数据预处理****4. 模型构建****5. 模型训练****6. 预测与评估****二、代码详解****1. 数据生成****2. 数据预处理****3. 模型架构****4. 训练配置****5. 结果可视化****三、关键参数说明****四、…

Windows软件插件-音视频捕获

下载本插件 音视频捕获就是获取电脑外接的话筒&#xff0c;摄像头&#xff0c;或线路输入的音频和视频。 本插件捕获电脑外接的音频和视频。最多可以同时获取4个视频源和4个音频源。插件可以在win32和MFC程序中使用。 使用方法 首先&#xff0c;加载本“捕获”DLL&#xff0c…

ios打包ipa获取证书和打包创建经验分享

在云打包或本地打包ios应用&#xff0c;打包成ipa格式的app文件的过程中&#xff0c;私钥证书和profile文件是必须的。 其实打包的过程并不难&#xff0c;因为像hbuilderx这些打包工具&#xff0c;只要你输入的是正确的证书&#xff0c;打包就肯定会成功。因此&#xff0c;证书…