Python 文字识别OCR

      一.引言

文字识别,也称为光学字符识别(Optical Character Recognition, OCR),是一种将不同形式的文档(如扫描的纸质文档、PDF文件或数字相机拍摄的图片)中的文字转换成可编辑和可搜索的数据的技术。随着技术的发展,文字识别技术已经成为信息管理、自动化办公和智能系统的关键组成部分。

二.简介

为了易于集成和使用,我们将文字识别OCR封装为DLL(动态链接库)。这种封装方式不仅保留了算法的性能优势,还提供了跨平台和跨语言的兼容性,目前支持编程语言如下:

  • C++
  • Python
  • 易语言

1.C++头文件


#ifndef _SN_SDK_H__
#define _SN_SDK_H__#include <windows.h>enum SN_TRACK_MOVE_TYPE
{TRACK_MOVE_TYPE_NORMAL=0,		// 用于常规轨迹 - 普通游戏鼠标轨迹TRACK_MOVE_TYPE_SLIDER,			// 用于滑块轨迹,比常规常规轨迹密度更大 - 滑块验证轨迹
};enum SN_TRACK_POINT_TYPE
{TRACK_POINT_TYPE_NORMAL=0,		// 默认绝对坐标TRACK_POINT_TYPE_RELATIVE,		// 相对坐标
};//返回参数
typedef struct SN_RESULT {int code;			//错误码,如果为 0 表示成功,否则表示错误号char message[4096];	//错误信息,如果为 "OK" 表示成功,否则返回错误信息}SN_RESULT;//坐标参数
typedef struct SN_POINT
{int x;				//屏幕坐标,左上角(0,0),右下角(1920,1080 - 以实际屏幕为准)int y;				//屏幕坐标,左上角(0,0),右下角(1920,1080 - 以实际屏幕为准)}SN_POINT;//轨迹参数
typedef struct SN_POINT_PARAMS
{struct SN_POINT point;//屏幕坐标,左上角(0,0),右下角(1920,1080 - 以实际屏幕为准)int delayTime;		  //延时时间(单位:毫秒),仅供参考}SN_POINT_PARAMS;/*创建句柄
*
* 参数:
*	[in] szKey:		卡密(购买卡密:https://shop.4yuns.com/links/7C9F16B7)
* 	[in] pOnnxFilePath:设置 onnx 模型文件路径,如果设置为 NULL,默认和 DLL文件同级目录
* 	[out] pResult:		返回错误信息,参数pResult.code(错误码)如果为 0 表示成功,否则表示错误号;
*
* 返回值:成功返回句柄,失败返回NULL
*
*/
HANDLE WINAPI apiSNCreateHandle(char* szKey, char* pOnnxFilePath, SN_RESULT* pResult);/*设置鼠标移动轨迹,默认为 0 表示普通轨迹 ; 1 表示滑块验证时移动轨迹(获得的轨迹点数比普通轨迹点数更多)
*
* 参数:
*	[in] handle:		句柄(通过调用apiSNCreateHandle得到)
*  	[in] density:		轨迹密度调节 ,必须大于或者等于 1,默认 1
*								例如:默认1,原本为100个点,density 为 5,会得到20个点;density 为 2,会得到50个点 )
*  	[in] type:			轨迹类型(0代表绝对普通轨迹,1代表滑块轨迹,具体参考enum SN_TRACK_MOVE_TYPE)
*
* 返回值:返回参数SN_RESULT.code(错误码)如果为 0 表示成功,否则表示错误号;
*
*/
int WINAPI apiSNSetTrackParams(HANDLE handle, int density=1, int type=0);/*获取鼠标移动轨迹
*
* 参数:
*	[in] handle:		句柄(通过调用apiSNCreateHandle得到)
* 	[in] startPoint:	开始坐标,左上角(0,0),右下角(1920,1080 - 以实际屏幕为准)
* 	[in] endPoint:		结束坐标,左上角(0,0),右下角(1920,1080 - 以实际屏幕为准)
*  	[in] type:			轨迹坐标类型(0代表绝对坐标,1代表相对坐标,具体参考enum SN_TRACK_POINT_TYPE)
* 	[out] points:		轨迹数组,如果数组中元素 point 出现(10000,10000),表示鼠标轨迹结束
*
* 返回值:返回参数SN_RESULT.code(错误码)如果为 0 表示成功,否则表示错误号;
*
*/
int WINAPI apiSNMouseMove(HANDLE handle, SN_POINT *startPoint, SN_POINT *endPoint, int type, SN_POINT_PARAMS* points);/*获取版本号
*
* 参数:
*	[in] handle:		句柄(通过调用apiSNCreateHandle得到)
* 	[out] szVersion:	版本号
*
* 返回值:返回参数SN_RESULT.code(错误码)如果为 0 表示成功,否则表示错误号;
*
*/
int WINAPI apiSNGetVersion(HANDLE handle, char* szVersion);/*获取OCR文字识别卡密到期时间
*
* 参数:
*	[in]  handle:		句柄(通过调用apiSNCreateOCRHandle得到)
* 	[out] pResult:		返回错误信息,参数pResult->code(错误码)如果为 0 表示成功,否则表示错误号;
*
* 返回值:返回卡密到期时间,失败返回NULL,错误信息请查看参数 pResult->message
*
*/
char* WINAPI apiSNGetKeyExpiresTime(HANDLE handle, SN_RESULT* pResult);/*获取错误信息
*
* 参数:
*	[in] handle:		句柄(通过调用apiSNCreateHandle得到)
*
* 返回值:返回参数SN_RESULT.code(错误码)如果为 0 表示成功,否则表示错误号;
*
*/
int WINAPI apiSNGetError(HANDLE handle);/*释放句柄(内存)
*
* 参数:
*	[in] handle:		句柄(通过调用apiSNCreateHandle得到)
*
* 返回值:返回参数SN_RESULT.code(错误码)如果为 0 表示成功,否则表示错误号;
*
*/
int WINAPI apiSNDestroyHandle(HANDLE handle);#endif // !_SN_SDK_H__

2.Python调用dll接口

from ctypes import cdll, c_char_p, Structure, byref
import ctypes# 定义SN_STATU结构体
class SN_STATU(Structure):_fields_ = [("code", ctypes.c_int),("message", c_char_p * 4096)]# 加载DLL
lib = cdll.LoadLibrary('D://SNOCR.dll')# 设置函数参数类型
lib.apiSNInitOCRServer.argtypes = [c_char_p, ctypes.POINTER(SN_STATU)]
lib.apiSNInitOCRServer.restype = ctypes.c_intlib.apiSNCreateOCRHandle.argtypes = [c_char_p, c_char_p, ctypes.POINTER(SN_STATU)]
lib.apiSNCreateOCRHandle.restype = ctypes.c_void_plib.apiSNGetKeyExpiresTime.argtypes = [ctypes.c_void_p, ctypes.POINTER(SN_STATU)]
lib.apiSNGetKeyExpiresTime.restype = c_char_plib.apiSNGetOCRFromImage.argtypes = [ctypes.c_void_p, c_char_p, ctypes.POINTER(SN_STATU)]
lib.apiSNGetOCRFromImage.restype = c_char_plib.apiSNDestroyOCRHandle.argtypes = [ctypes.c_void_p]
lib.apiSNDestroyOCRHandle.restype = ctypes.c_int# 初始化变量
statu = SN_STATU()
key = b"SNKJe9xffLhdFY7r3TcffXq44ThDVcE3BQFQFfVA9VG4"
onnx_path = b"D://SNOCR.onnx"
image_path = b"D://7.jpg"# 1. 启动OCR服务
ret = lib.apiSNInitOCRServer(onnx_path, byref(statu))
if ret < 0:print(f"Error:{statu.message.decode('utf-8')}")exit()# 2. 创建OCR句柄
handle = lib.apiSNCreateOCRHandle(key, onnx_path, byref(statu))
if not handle:print(f"Error:{statu.message.decode('utf-8')}")exit()# 3. 获取卡密到期时间
expires_time = lib.apiSNGetKeyExpiresTime(handle, byref(statu))
if not expires_time:print(f"Error:{statu.message.decode('utf-8')}")exit()
print(f"Expires Time: {expires_time.decode('utf-8')}")# 4. 识别OCR,返回Json字符串
ocr_result = lib.apiSNGetOCRFromImage(handle, image_path, byref(statu))
if not ocr_result:print(f"Error:{statu.message.decode('utf-8')}")exit()
try:print(f"OCR Result: {ocr_result.decode('utf-8')}")
except UnicodeDecodeError:print(f"OCR Result: {ocr_result.decode('GBK')}")# 5. 释放内存
lib.apiSNDestroyOCRHandle(handle)# 等待输入,防止程序直接退出
input("Press Enter to exit...")

三.效果演示

1.图片1

识别效果:

{"type":	0,"task_id":	1,"err_code":	0,"ocr_result":	{"single_result":	[{"single_rate":	0.939104,"left":	102.208336,"top":	41.812500,"right":	329.854156,"bottom":	67.829170,"single_str_utf8":	"中国建设银行"}, {"single_rate":	0.966887,"left":	104.431534,"top":	68.423492,"right":	309.992828,"bottom":	84.602386,"single_str_utf8":	"China Construction Bank"}, {"single_rate":	0.968900,"left":	102.672920,"top":	96.168755,"right":	403.258331,"bottom":	111.964584,"single_str_utf8":	"龙卡通(储蓄卡)LONG CARD(DEBIT CARD)"}, {"single_rate":	0.975151,"left":	41.781921,"top":	137.955643,"right":	410.251556,"bottom":	164.107880,"single_str_utf8":	"6227 0033 2069 0222 205"}, {"single_rate":	0.935433,"left":	20.770407,"top":	210.668716,"right":	77.230583,"bottom":	230.122101,"single_str_utf8":	"ATM"}, {"single_rate":	0.960131,"left":	103.137505,"top":	185.368759,"right":	192.337509,"bottom":	207.204163,"single_str_utf8":	"CCB GZ"}, {"single_rate":	0.929293,"left":	338.376495,"top":	201.118103,"right":	417.111450,"bottom":	224.273529,"single_str_utf8":	"UnionPa"}, {"single_rate":	0.917808,"left":	367.485413,"top":	220.677078,"right":	413.479156,"bottom":	239.260422,"single_str_utf8":	"银联"}],"unknown_1":	446,"unknown_2":	280}
}

2.图片2

识别效果:

{"type":	0,"task_id":	1,"err_code":	0,"ocr_result":	{"single_result":	[{"single_rate":	0.919637,"left":	622.061157,"top":	123.251556,"right":	1046.638920,"bottom":	190.015121,"single_str_utf8":	"马托13610000670"}, {"single_rate":	0.996936,"left":	40.618664,"top":	324.310150,"right":	541.513184,"bottom":	371.843231,"single_str_utf8":	"广州利驰服装有限公司"}, {"single_rate":	0.997014,"left":	624.066650,"top":	218.300000,"right":	1040.933350,"bottom":	242.966675,"single_str_utf8":	"地址:广州市海珠区赤岗路173号"}, {"single_rate":	0.964238,"left":	624.066650,"top":	251.600000,"right":	844.833374,"bottom":	276.266663,"single_str_utf8":	"金丰大厦503室"}, {"single_rate":	0.979285,"left":	625.300000,"top":	286.133331,"right":	1044.633300,"bottom":	309.566681,"single_str_utf8":	"厂址:广州市海珠区赤岗西路232"}, {"single_rate":	0.996300,"left":	624.066650,"top":	318.200000,"right":	759.733337,"bottom":	341.633331,"single_str_utf8":	"号-234号"}, {"single_rate":	0.991057,"left":	624.066650,"top":	351.500000,"right":	925,"bottom":	374.933350,"single_str_utf8":	"热线:400-688-7260"}, {"single_rate":	0.964125,"left":	625.239319,"top":	381.016510,"right":	922.600220,"bottom":	404.499695,"single_str_utf8":	"电话:020-84022958"}, {"single_rate":	0.993601,"left":	624.066650,"top":	408.233337,"right":	923.766663,"bottom":	432.900000,"single_str_utf8":	"传真:020-84022572"}, {"single_rate":	0.950434,"left":	625.203430,"top":	438.767609,"right":	1107.616580,"bottom":	464.666626,"single_str_utf8":	"邮箱:kunhemwl@yahoo.com.cn"}, {"single_rate":	0.962023,"left":	624.066650,"top":	471.133331,"right":	1001.466670,"bottom":	494.566681,"single_str_utf8":	"网址:www.hxkunhe.com"}],"unknown_1":	1184,"unknown_2":	614}
}

四.常见问题

1.是否支持多线程

支持

五.更新日志

  • 2024.12.15 OCR 文字识别支持C++/Python/易语言

六.云盘源码下载

  • 百度云盘
  • 夸克云盘
  • 123云盘

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/70577.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ximalaya(三) playUriList值解密--webpack

本文主要介绍解密音频播放url参数。 本文仅代表个人理解&#xff0c;如有其他建议可在评论区沟通。 声明 仅仅记录一下自己的学习方法&#xff0c;不作为其他参考、更不作为商业用途。如有侵犯请联系本人删除 目标地址&#xff1a;aHR0cHM6Ly93d3cueGltYWxheWEuY29tL3NvdW5k…

Linux之Http协议分析以及cookie和session

Linux之Http协议分析以及cookie和session 一.分析请求行与响应行1.1请求行1.1.1资源的URL路径1.1.2常见的方法1.2响应行 二.cookie和session2.1cookie2.2session 一.分析请求行与响应行 在我们简单了解了请求和响应的格式以及模拟实现了请求和响应后我们已经可以通过网页来访问…

【漫话机器学习系列】085.自助采样法(Bootstrap Sampling)

自助采样法&#xff08;Bootstrap Sampling&#xff09; 1. 引言 在统计学和机器学习领域&#xff0c;数据的充足性直接影响模型的性能。然而&#xff0c;在许多实际场景中&#xff0c;我们可能无法获得足够的数据。为了解决这个问题&#xff0c;自助采样法&#xff08;Boots…

15vue3实战-----props和emit传值

15vue3实战-----props和emit传值 1.emit的使用2.配合props实现完整父子通信 vue3中props和emit的使用有点不一样,但万变不离其宗。 1.emit的使用 子组件: <script setup lang"ts"> // 定义触发的事件及其数据类型 const emit defineEmits([update, delete]…

nodejs - vue 视频切片上传,本地正常,线上环境导致磁盘爆满bug

nodejs 视频切片上传&#xff0c;本地正常&#xff0c;线上环境导致磁盘爆满bug 原因&#xff1a; 然后在每隔一分钟执行du -sh ls &#xff0c;发现文件变得越来越大&#xff0c;即文件下的mp4文件越来越大 最后导致磁盘直接爆满 排查原因 1、尝试将m3u8文件夹下的所有视…

金融资产配置

不要放在一个篮子里也不要放在太多篮子里&#xff1a; 尽量放在不相关的行业实现风险对冲 金融资产从风险类别上主要可以分为三类&#xff1a; 进攻型资产、稳定型资产和防守型资产 进攻型资产包括原油、股票、一级市场股权投资等 稳定型资产包括信托、理财、国债等 防守…

JavaScript 在 VSCode 中的优势与应用

JavaScript 在 VSCode 中的优势与应用 引言 随着前端技术的发展,JavaScript 已经成为了网页开发中最流行的编程语言之一。Visual Studio Code(简称 VSCode)作为一款轻量级、可扩展的代码编辑器,因其强大的功能和良好的用户体验,深受广大开发者的喜爱。本文将探讨 JavaSc…

公司配置内网穿透方法笔记

一、目的 公司内部有局域网&#xff0c;局域网上有ftp服务器&#xff0c;有windows桌面服务器&#xff1b; 在内网环境下&#xff0c;是可以访问ftp服务器以及用远程桌面登录windows桌面服务器的&#xff1b; 现在想居家办公时&#xff0c;也能访问到公司内网的ftp服务器和win…

qml前后端数据交互

在QML&#xff08;Qt Markup Language&#xff09;中进行前后端数据交互&#xff0c;通常涉及到使用Qt的C后端与QML界面进行通信。QML本身是一个声明式语言&#xff0c;负责界面和交互逻辑的部分&#xff0c;而C后端负责数据处理、逻辑控制以及与系统或网络的交互。以下是一些常…

ZU47DR 100G光纤 高性能板卡

简介 2347DR是一款最大可提供8路ADC接收和8路DAC发射通道的高性能板卡。板卡选用高性价比的Xilinx的Zynq UltraScale RFSoC系列中XCZU47DR-FFVE1156作为处理芯片&#xff08;管脚可以兼容XCZU48DR-FFVE1156&#xff0c;主要差别在有无FEC&#xff08;信道纠错编解码&#xff0…

【自然语言处理】利用Memory Layer替换Transformer中的FFN

论文地址&#xff1a;https://arxiv.org/pdf/2412.09764 相关博客 【自然语言处理】利用Memory Layer替换Transformer中的FFN 【自然语言处理】【大模型】BitNet&#xff1a;用1-bit Transformer训练LLM 【自然语言处理】BitNet b1.58&#xff1a;1bit LLM时代 【自然语言处理】…

ChunkKV:优化 KV 缓存压缩,让 LLM 长文本推理更高效

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗&#xff1f;订阅我们的简报&#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同&#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会&#xff0c;成为AI领…

k8s中部署nginx的pod

在当今数字化的浪潮中&#xff0c;容器编排技术成为了构建和管理应用程序的核心力量。Kubernetes&#xff08;简称 k8s&#xff09;作为容器编排领域的佼佼者&#xff0c;凭借其强大的自动化部署、扩展和管理能力&#xff0c;深受开发者和运维人员的青睐。而 Nginx 作为一款高性…

台湾精锐APEX减速机在半导体制造设备中的应用案例

半导体制造设备对传动系统的精度、可靠性和稳定性要求极高&#xff0c;台湾精锐APEX减速机凭借其低背隙、高精度和高刚性等优势&#xff0c;在半导体制造设备中得到了广泛应用。 案例一&#xff1a;晶圆切割设备 1.应用场景 在晶圆切割过程中&#xff0c;设备需要高精度的运…

UV - Python 包管理

文章目录 创建 uv 项目已有项目已有uv项目 创建 uv 项目 # 创建项目 uv init m3 # 创建环境 cd m3 uv venv --python 3.11 # 激活环境 source .venv/bin/activate # 添加库 uv add flask 如果创建项目后&#xff0c;给库取别的名字&#xff0c;add 的时候&#xff0c;会…

如何为win10本地部署的deepseek创建一个快捷方式

简介&#xff1a;在桌面上创建一个快捷方式&#xff0c;双击即可实现打开终端并且输入ollama run的命令。 在win10系统下&#xff0c;本地部署了deepseek之后&#xff0c;每次需要打开powershell&#xff0c;然后再手动输入指令 ollama run deepseek-r1:1.5b 要想实现一个桌面…

网安三剑客:DNS、CDN、VPN

DNS&#xff08;网络地址转换系统&#xff09;的技术原理与安全应用 1. 网络地址转换系统的基本原理 DNS通过解析用户的访问URL&#xff08;超链接&#xff09;&#xff0c;将其映射到服务器上存储的信息。具体来说&#xff1a; 解析URL&#xff1a;DNS从URL中提取出 hostna…

Unity项目实战-简单特效系统的管理

Unity特效系统详解 一、基础特效管理系统 1. 初始版本实现 现在我们编写了一个VFXManager脚本来控制特效,并实现了 VFX 特效的运行和结束功能,并用单例模式优化了代码,避免每次播放不同特效时重复实例脚本类. public class VFXManager : MonoBehaviour {public static VFXM…

解锁Rust:融合多语言特性的编程利器

如果你曾为理解Rust的特性或它们之间的协同工作原理而苦恼,那么这篇文章正是为你准备的。 Rust拥有许多令人惊叹的特性,但这些特性并非Rust所独有。实际上,Rust巧妙地借鉴了众多其他语言的优秀特性,并将它们融合成了一个完美的整体。深入了解Rust这些重要特性的来源以及它是…

【阅读笔记】信息熵自动曝光An Automatic Exposure Algorithm Based on Information Entropy

一、算法背景 信息熵作为衡量图像信息量的重要指标&#xff0c;能够反映图像的细节丰富程度。通过基于信息熵的自动曝光算法&#xff0c;可以自动调整曝光时间&#xff0c;使图像包含更多信息&#xff0c;从而提高图像质量。 灰度直方图在各个灰度值上分布越均匀&#xff0c;…