OCR(Optical Character Recognition),光学字符识别

参考:如何让机器读懂图片上的文字?飞桨助您快速了解OCR - 知乎
OCR(Optical Character Recognition),译为光学字符识别,是指通过扫描等光学输入方式将各种票据、报刊、书籍、文稿及其它印刷品的文字转化为图像信息,再利用文字识别技术将图像信息转化为可以使用的计算机输入技术。

OCR技术的应用场景非常广泛:
(1)拍照/截图识别
使用OCR技术,实现拍照文字识别、相册图片文字识别和截图文字识别,可应用于搜索、书摘、笔记、翻译等移动应用中,方便用户进行文本的提取或录入,有效提升产品易用性和用户使用体验。
(2)内容审核与监管
(3)视频内容分析
(4)纸质文档电子化

OCR技术原理

图像处理阶段:包含图像输入、图像预处理、版面分析、字符切割等子步骤。

文字识别阶段:包含特征提取、字符识别、版面恢复、后处理等子步骤。


 

【文本检测】

图像输入:读取不同格式的图像文件。

图像预处理:包含灰度化、二值化、图像降噪、倾斜矫正等预处理步骤。

版面分析:针对左右两栏等特殊排版,进行版面分析并划分段落。

字符切割:对图像中的文本进行字符级的切割,尤其注意字符粘连等问题。

【文本识别】

特征提取:对字符图像提取关键特征并降维,用于后续的字符识别算法。

字符识别:依据特征向量,基于模版匹配分类法或深度神经网络分类法,识别出字符。

版面恢复:识别原文档的排版,按照原排版的格式将识别结果输出。

后处理:引入语言模型或人工检查,修正“分”和“兮”等形近字。

参考:OCR二次开发宝典:飞桨联合多家企业和高校发布《OCR产业范例20讲》 - 知乎
基于PaddleOCR完成一个范例的完整流程一般包含数据准备、模型训练、推理部署三个部分,具体来说:

模型训练

PP-OCR和PP-Structure系列模型都使用了大量训练数据,在通用场景可以一定程度地保证精度和泛化性,因此一般建议基于飞桨PP系列模型进行模型微调(finetune),从而实现使用较少的业务数据达到预期效果。基于不同场景业务数据训练的模型,有时需要针对前后处理进行任务适配,往往能进一步提升整体效果,偶尔甚至有“奇效”。如车牌识别范例中,通过后处理优化特殊符号的识别结果,大幅提升了整体识别精度。

银行回单是企业财务记账的重要原始凭证之一。目前是由财务人员进行人工读取,提取账单中的收付款人、流水单号、金额等关键信息,结合财务记账规则进行处理,加工成记账凭证、资产负债表、开具发票。针对该场景,本范例基于PP-Structure训练命名实体识别、关系抽取模型并基于Hub Serving完成关键信息抽取的服务化部署,实现代替记账公司实现自动化记账报税功能。

文档场景信息抽取v4产线 - PaddleX 文档

通用OCR产线 - PaddleX 文档
OCR(光学字符识别,Optical Character Recognition)是一种将图像中的文字转换为可编辑文本的技术。它广泛应用于文档数字化、信息提取和数据处理等领域。OCR 可以识别印刷文本、手写文本,甚至某些类型的字体和符号。

通用 OCR 产线用于解决文字识别任务,提取图片中的文字信息以文本形式输出,本产线集成了业界知名的 PP-OCRv3 和 PP-OCRv4 的端到端 OCR 串联系统,支持超过 80 种语言的识别,并在此基础上,增加了对图像的方向矫正和扭曲矫正功能。基于本产线,可实现 CPU 上毫秒级的文本内容精准预测,使用场景覆盖通用、制造、金融、交通等各个领域。本产线同时提供了灵活的服务化部署方式,支持在多种硬件上使用多种编程语言调用。不仅如此,本产线也提供了二次开发的能力,您可以基于本产线在您自己的数据集上训练调优,训练后的模型也可以无缝集成。
通用OCR产线中包含必选的文本检测模块和文本识别模块,以及可选的文档图像方向分类模块、文本图像矫正模块和文本行方向分类模块。其中,文档图像方向分类模块和文本图像矫正模块作为文档预处理子产线被集成到通用OCR产线中。

如果您更注重模型的精度,请选择精度较高的模型;如果您更在意模型的推理速度,请选择推理速度较快的模型;如果您关注模型的存储大小,请选择存储体积较小的模型。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/78699.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一网统管建设组织保障分工常见表

在 “一网统管” 建设进程中,强有力的组织保障体系与各业务部门间的紧密分工协作是确保建设成效的关键。 从组织保障层面来看,需建立专门的 “一网统管” 建设领导小组,由政府高层领导担任组长,各关键业务部门负责人作为组员,以此强化对整体建设工作的统筹规划与组…

Python中的defaultdict方法

文章目录 核心特点基本语法常见使用场景1. 分组数据(默认值为列表)2. 计数(默认值为整数)3. 集合操作(默认值为集合)4. 嵌套字典 注意事项与普通字典对比总结1. 键(Key)的类型2. 值&…

结构化数据、半结构化数据、非结构化数据 差异与实践指南

结构化数据、半结构化数据、非结构化数据 差异与实践指南 一、核心概念与差异对比 维度结构化数据半结构化数据非结构化数据数据结构固定Schema(行列明确)含标签/层级结构(无固定Schema)无预定义结构存储方式关系型数据库&#x…

【AI News | 20250429】每日AI进展

AI Repos 1、aci ACI.dev是一个开源基础设施层,旨在为AI智能体的工具使用提供支持。它通过统一的模型-上下文-协议(MCP)服务器或轻量级Python SDK,使智能体能够以感知意图的方式访问600多种工具,并具备多租户认证、细…

【C++ 类和数据抽象】消息处理示例(1):从设计模式到实战应用

目录 一、数据抽象概述 二、消息处理的核心概念 2.1 什么是消息处理? 2.2 消息处理的核心目标 三、基于设计模式的消息处理实现 3.1 观察者模式(Observer Pattern) 3.2 命令模式(Command Pattern) 四、实战场景…

【Android】自定义Trace

1,Trace分析 Android掉帧分析-CSDN博客 2,自定义Trace 以下,android.os.Trace公开了以下API 1,beginSection与endSection联合使用,只能在同一个线程 2,beginAsyncSection与endAsyncSection可以在不同线程…

基于tabula对pdf中的excel进行识别并转换成word(三)

上一节中是基于PaddleOCR对图片中的excel进行识别并转换成word优化,本节改变思路,直接从pdf中读取表格的信息,具体思路如下所述。 PDF中的表格数据如下截图所示: 一、基于tabula从PDF中提取表格 df_list tabula.read_pdf("…

Java中的接口和抽象类

Java 抽象类与接口:区别、应用与选择 在 Java 编程的世界里,抽象类和接口是两个极为重要的概念,它们在实现代码抽象、提高代码复用性和可维护性方面发挥着关键作用。然而,很多开发者在使用时容易混淆这两个概念。本文将深入探讨 …

Java读Excel:解析阿里云easyExcel导入文件的行号

文章目录 引言I 解析阿里云easyExcel导入文件的行号声明解析对象的基类判断Excel解析对象类型是否包含继承某个类 isAssignableFromJava 转换list类型并设置下标到元素对象属性II 封装excel 文件读取excel 文件读取用法文件导入上下文III 参数校验工具类校验参数是否合法 (jaka…

mmap核心原理和用途及其与内存映射段的关系

mmap 是 Linux/Unix 系统中的一个关键系统调用,全称是 Memory Map(内存映射)。它的核心功能是将 文件、设备或匿名内存 直接映射到进程的虚拟地址空间,从而实现高效的内存访问和操作。以下是其核心原理和用途的详细说明&#xff1…

数据库概论速成期中版

文章目录 引论数据库用户Casual usersNaive usersApplication programmersDatabase administrators 关系模型CAP数据库两种描述关系数据库的方式简单总结 第一范式规则第二范式规则举个例子符合第二规则的操作不符合第二规则的操作 第三范式规则key,superkey,null values,主键&…

解决调用Claude 3.7接口 403 Request not allowed问题

1. 遇到问题 Python 基于 Langchain 对接 Claude 3.7 大模型接口进行问答时,由于国内不在Claude支持的国家和地区,所以一直调不通,错误 anthropic.PermissionDeniedError: Error code: 403 - {error: {type: forbidden, message: Request…

Vue2+Vue3学习笔记

Vue基础介绍 下载并安装vue.js v2 https://v2.cn.vuejs.org/https://v2.cn.vuejs.org/ v3 https://v3.cn.vuejs.org/ 会重定向到Vue.js - 渐进式 JavaScript 框架 | Vue.jsVue.js - 渐进式的 JavaScript 框架https://cn.vuejs.org/ 从v2过渡到v3 在F盘创建v2v3学习笔记 并…

2025年KBS新算法 SCI1区TOP:长颖燕麦优化算法AOO,深度解析+性能实测

目录 1.摘要2.算法原理3.结果展示4.参考文献5.文章&代码获取 1.摘要 本文提出了一种新颖的元启发式算法——长颖燕麦优化算法(AOO),该算法灵感来自动画燕麦在环境中的自然行为。AOO模拟了长颖燕麦的三种独特行为:(i) 通过自然…

CentosLinux系统crontab发现执行删除命令失效解决方法

权限或安全策略限制 ​​可能场景​​: ​​### ​​目录权限冲突​​: 你的目录权限为 drwxr-xr-x(属主 mssql),但 cron 任务以 root 执行。 ​​风险点​​:若目录内文件属主为 mssql 且权限为 700&…

后验概率最大化(MAP)估计算法原理以及相具体的应用实例附C++代码示例

1. MAP估计基本原理 MAP(Maximum A Posteriori,最大后验概率估计)是贝叶斯推断中的重要概念,它的目标是: 给定观测数据,找到使得后验概率最大的参数值。 公式化表示: [ θ MAP arg ⁡ max ⁡…

16、路由守卫:设置魔法结界——React 19 React Router

一、魔法结界的本质 "路由守卫是霍格沃茨城堡的隐身斗篷,在时空裂隙中精准控制维度跃迁!" 魔法部交通司官员挥舞魔杖,React Router 的嵌套路由在空中交织成星轨矩阵。 ——基于《国际魔法联合会》第7号时空协议,路由守…

从车道检测项目入门open cv

从车道检测项目入门open cv 前提声明:非常感谢b站up主 嘉然今天吃带变,感谢其视频的帮助。同时希望各位大佬积积极提出宝贵的意见。😊😊😊(❁◡❁)(●’◡’●)╰(▽)╯ github地址:https://github.com/liz…

【行业特化篇3】制造业简历优化指南:技术参数与标准化流程的关键词植入艺术

写在最前 作为一个中古程序猿,我有很多自己想做的事情,比如埋头苦干手搓一个低代码数据库设计平台(目前只针对写java的朋友),比如很喜欢帮身边的朋友看看简历,讲讲面试技巧,毕竟工作这么多年,也做到过高管,有很多面人经历,意见还算有用,大家基本都能拿到想要的offe…

如何在本地部署小智服务器:从源码到全模块运行的详细步骤

小智聊天机器人本地后台服务器源码全模块部署 作者:林甲酸 -不是小女子也不是女汉子 是大女子 更新日期:2025年4月29日 🎯 前言:为什么要写这篇教程? 上周按照虾哥小智服务器的教程去部署本地后台,我用的是…