paddle ocr本地化部署进行文字识别

一、Paddle 简介

1. 基本概念

Paddle(全称 PaddlePaddle,飞桨)是百度开发的 开源深度学习平台,也是中国首个自主研发、功能丰富、技术领先的工业级深度学习平台。它覆盖了深度学习从数据准备、模型训练、模型部署到预测的全流程,旨在帮助开发者快速实现 AI 应用。

2. 核心特点
  • 全场景覆盖:支持云端、边缘端、移动端等多硬件环境,适配 CPU、GPU、FPGA 等多种芯片。
  • 易用性与高效性:提供简洁的 API 和动态图机制(如 PyTorch 风格的编程体验),降低开发门槛;同时支持静态图优化,提升推理效率。
  • 丰富的工具与生态
    • 模型库:包含计算机视觉、自然语言处理、语音等领域的预训练模型(如 ERNIE、PP-YOLO 等)。
    • 开发工具链:支持自动并行、混合精度训练、模型压缩(剪枝、量化)等高级功能。
    • 社区与文档:提供详细的教程、示例和活跃的开发者社区。
3. 应用场景
  • 计算机视觉:图像分类、目标检测、语义分割、OCR 等。
  • 自然语言处理:文本分类、机器翻译、对话系统等。
  • 语音与音频:语音识别、语音合成等。
  • 工业与科研:智能制造、自动驾驶、医疗影像分析等。

二、Paddle OCR 简介

1. 基本概念

Paddle OCR 是基于 PaddlePaddle 平台开发的 光学字符识别(OCR)工具库,专注于文本检测、文本识别及多语言文字处理,支持中英文、数字、日文、韩文等多语言场景,广泛应用于文档扫描、票据识别、车牌识别、直播字幕提取等领域。

2. 技术架构

Paddle OCR 采用 端到端(End-to-End)的深度学习架构,主要包含以下模块:

  • 文本检测:定位图像中的文本区域(如 EAST、DB 算法)。
  • 文本识别:识别文本区域中的字符(如 CRNN、STAR-Net、RARE 等算法)。
  • 后处理:对识别结果进行校正(如基于语言模型的纠错)。
3. 核心功能
  • 多语言支持:支持中、英、日、韩、法、德等多种语言,以及竖排文本、弯曲文本(如弧形标识)的识别。
  • 多场景适配
    • 通用场景:印刷体文本(如文档、书籍)、手写体文本(部分支持)。
    • 特殊场景:票据(如发票、身份证)、车牌、街景文字(低光照、模糊图像)等。
  • 高性能部署
    • 支持 CPU/GPU/ARM 等硬件,提供轻量级模型(如 PP-OCR Mobile),适合移动端和嵌入式设备。
    • 支持多后端部署(如 Paddle Inference、Paddle Lite、Paddle.js),满足实时性需求。
4. 优势
  • 高精度:在公开数据集(如 ICDAR、CTW1500)上表现领先,部分场景准确率超过 95%。
  • 易用性:提供预训练模型、命令行工具和 Python SDK,支持一键安装和快速部署。
  • 可定制化:支持自定义数据集训练,适配特定领域(如医疗、金融)的文字识别需求。
5. 典型应用场景
  • 办公自动化:扫描文档电子化、表格识别、合同文本提取。
  • 智慧金融:银行卡号识别、发票验真、银行单据处理。
  • 智慧城市:车牌识别、交通标志识别、公共设施文字标注。
  • 移动应用:拍照翻译、名片识别、直播实时字幕生成。

三、Paddle 与 Paddle OCR 的关系

  • Paddle 是底层平台:提供深度学习框架、工具链和计算能力。
  • Paddle OCR 是上层应用:基于 Paddle 实现具体的 OCR 功能,依赖 Paddle 的模型训练和推理能力。
  • 生态协同:Paddle 的模型压缩、自动调参等功能可直接优化 Paddle OCR 的性能,形成技术闭环。

四 环境搭建

python环境搭建参考linux使用pyenv安装python环境-CSDN博客

# 安装Flask、NumPy
pip install flask numpy# 安装OpenCV(cv2)
pip install opencv-python-headless
pip install paddlepaddle -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install paddleocr -i https://pypi.tuna.tsinghua.edu.cn/simple

 python代码,新建ocr_server.py,写入以下代码,这段代码会生成一个服务,监听5000端口,接收base64图片,进行识别,然后把图片里面的文字返回

from flask import Flask, request, jsonify
from paddleocr import PaddleOCR
import base64
import numpy as np
import cv2
import jsonapp = Flask(__name__)@app.route('/ocr', methods=['POST'])
def ocr_api():data = request.jsonimage_b64 = data.get('image')if not image_b64:return jsonify({"error": "No image provided"}), 400# 解码 Base64 图像img_bytes = base64.b64decode(image_b64)img_np = np.frombuffer(img_bytes, dtype=np.uint8)img = cv2.imdecode(img_np, flags=1)ocr = PaddleOCR(use_angle_cls=True, lang='ch')  # 加载中文模型# 执行 OCRresult = ocr.ocr(img, cls=True)print(result)# 提取识别文本text_list = []for line in result[0]:text = line[1][0]text_list.append(text)# 组合为JSON格式output = {"text": text_list}# 转为JSON字符串json_output = json.dumps(output, ensure_ascii=False, indent=2)return json_outputif __name__ == '__main__':app.run(host='0.0.0.0', port=5000)
# 服务器要求
# 2核4G内存以上
# 格式:nohup python3 脚本路径 > 输出文件 2>&1 &,启动服务
nohup python3 ocr_server.py > output.log 2>&1 &

调用方java代码,这段代码读取一张图片,转成base64,然后通过http调用ocr_server.py的接口,其他语言如js,python等都能实现类似效果

public class OCRClient {public static void main(String[] args) throws Exception {long time = System.currentTimeMillis();String imagePath = "d:\\test3.jpg";String urlStr = "http://localhost:5000/ocr";// 读取图片并转为 Base64byte[] imageBytes = Files.readAllBytes(Paths.get(imagePath));String base64Image = Base64.getEncoder().encodeToString(imageBytes);// 发送 POST 请求URL url = new URL(urlStr);HttpURLConnection conn = (HttpURLConnection) url.openConnection();conn.setRequestMethod("POST");conn.setRequestProperty("Content-Type", "application/json");conn.setDoOutput(true);String jsonInputString = "{\"image\": \"" + base64Image + "\"}";try (OutputStream os = conn.getOutputStream()) {byte[] input = jsonInputString.getBytes("utf-8");os.write(input, 0, input.length);}// 读取响应try (BufferedReader br = new BufferedReader(new InputStreamReader(conn.getInputStream(), "utf-8"))) {StringBuilder response = new StringBuilder();String responseLine;while ((responseLine = br.readLine()) != null) {response.append(responseLine.trim());}System.out.println("OCR Result:\n" + response.toString());}System.out.println(System.currentTimeMillis() - time);}
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/906276.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开源AI大模型等“神秘组合”,如何颠覆零售业数字化转型?

基于开源AI大模型、AI智能名片与S2B2C商城小程序源码的零售行业数字化转型新路径研究 摘要:在业界将企业数字化转型划分为管理数字化、工业数字化和营销数字化三大部分的背景下,国内大型制造企业在ERP与工业4.0洗礼下正迈向智能型发展道路。而零售行业面…

uniapp+vite+cli模板引入tailwindcss

目前vitecli方式用的都是官方提供的模板,vite版本还是4.14版本,较旧,而tailwindcss已经有了4版本,实际发现引入最新版会报错,因而继续使用3.3.5版本 pnpm install tailwindcss3.3.5 uni-helper/vite-plugin-uni-tail…

Golang中的runtime.LockOSThread 和 runtime.UnlockOSThread

在runtime中有runtime.LockOSThread 和 runtime.UnlockOSThread 两个函数,这两个函数有什么作用呢?我们看一下标准库中对它们的解释。 runtime.LockOSThread // LockOSThread wires the calling goroutine to its current operating system thread. // T…

Ubuntu搭建NFS服务器的方法

0 工具 Ubuntu 18.041 Ubuntu搭建NFS服务器的方法 在Ubuntu下搭建NFS(网络文件系统)服务器可以让我们像访问本地文件一样访问Ubuntu上的文件,例如可以把开发板的根文件系统放到NFS服务器目录下方便调试。 1.1 安装nfs-kernel-server&#…

HarmonyOS Next应用分层架构下组件封装开发实践

基于鸿蒙应用分层架构的ArkUI组件封装实践 在鸿蒙应用开发中,合理利用 ArkUI 组件进行封装,可以实现代码复用,提升开发效率。本文将结合鸿蒙应用分层架构的特点,详细探讨几个典型的 ArkUI 组件封装场景及其实现方案。 华为鸿蒙应…

JAVA请求vllm的api服务报错Unsupported upgrade request、 Invalid HTTP request received.

环境: vllm 0.8.5 java 17 Qwen3-32B-FP8 问题描述: JAVA请求vllm的api服务报错Unsupported upgrade request、 Invalid HTTP request received. WARNING: Unsupported upgrade request. INFO: - "POST /v1/chat/completions HTTP/1.1&…

旧 docker 版本通过 nvkind 搭建虚拟多节点 gpu 集群的坑

踩坑 参考nvkind教程安装到Setup这一步,由于docker版本较旧,–cdi.enabled 和 config 参数执行不了 手动修改 /etc/docker/daemon.json 配置文件 "features": {"cdi": true}手动修改 /etc/nvidia-container-runtime/config.toml 配…

C++:与7无关的数

【描述】 一个正整数,如果它能被7整除,或者它的十进制表示法中某一位上的数字为7,则称其为与7相关的数.现求所有小于等于n(n < 100)的与7无关的正整数的平方和. 【输入】 输入为一行,正整数n(n < 100) 【输出】 输出一行&#xff0c;包含一个整数&#xff0c;即小于等于n…

FPGA:Lattice的FPGA产品线以及器件选型建议

本文将详细介绍Lattice Semiconductor的FPGA产品线&#xff0c;帮助你了解各系列的特点和适用场景&#xff0c;以便更好地进行选型。Lattice以低功耗、小尺寸和高性能为核心&#xff0c;产品覆盖低中端市场&#xff0c;广泛应用于通信、计算、工业、汽车、消费电子、嵌入式视觉…

汽车零部件冲压车间MES一体机解决方案

在当前制造业升级的大背景下&#xff0c;提升生产效率、实现精细化管理已成为企业竞争力的关键。特别是在汽车零部件制造领域&#xff0c;冲压车间作为生产流程中的重要一环&#xff0c;其生产数据的实时采集与分析对于确保产品质量、优化生产节拍、降低运营成本至关重要。今天…

32、跨平台咒语—— React Native初探

一、时空晶体架构&#xff08;核心原理&#xff09; 1. 量子组件桥接协议 // 原生组件映射 <View> → iOS UIView / Android ViewGroup <Text> → UILabel / TextView 魔法特性&#xff1a; • JavaScriptCore引擎&#xff1a;通过V8/Hermes引擎执行JS逻辑…

前端面试宝典---webpack面试题

webpack 的 tree shaking 的原理 Webpack 的 Tree Shaking 过程主要包含以下步骤&#xff1a; 模块依赖分析&#xff1a;Webpack 首先构建一个完整的模块依赖图&#xff0c;确定每个模块之间的依赖关系。导出值分析&#xff1a;通过分析模块之间的 import 和 export&#xff…

VUE3_ref和useTemplateRef获取组件实例,ref获取dom对象

旧写法 ref的字符串需要跟js中ref定义的变量名称一样 类型丢失&#xff0c;无法获取到ref定义的title类型 <template><div><h1 ref"title">Hello Vue3.5</h1></div> </template><script setup>import { ref, onMounted } …

知识图谱(KG)与大语言模型(LLM)

知识图谱&#xff08;KG&#xff09;以其结构化的知识表示和推理能力&#xff0c;为大语言模型&#xff08;LLM&#xff09;的“幻觉”、知识更新滞后和可解释性不足等问题提供了有力的解决方案。反过来&#xff0c;LLM的强大文本理解和生成能力也为KG的构建、补全、查询和应用…

MySQL数据库设计

1. 如何设计数据库 设计数据库步骤 2. E-R图的使用 我们在日常设计的数据库多为“一对多”和“多对一” 3. 设计数据库三大范式⭐ 第一范式&#xff08;1st NF&#xff09;&#xff1a;确保每列的原子性 第二范式&#xff08;2st NF&#xff09;&#xff1a;每个表只描述一件事…

C#中Action的用法

Action 是 C# 中委托的一种&#xff0c;用于封装无返回值的方法。它引用的方法不能有返回值&#xff0c;但可以有零个或多个参数。相比delegate委托&#xff0c;Action 委托的优点是不必显式定义封装无参数过程的委托&#xff0c;使代码更加简洁和易读。 1、delegate-委托 先…

计算机视觉与深度学习 | matlab实现EMD-CNN-LSTM时间序列预测(完整源码、数据、公式)

EMD-CNN-LSTM 一、完整代码实现二、核心公式说明1. **经验模态分解(EMD)**2. **1D卷积运算**3. **LSTM门控机制**4. **损失函数**三、代码结构解析四、关键参数说明五、性能优化建议六、典型输出示例以下是用MATLAB实现EMD-CNN-LSTM时间序列预测的完整方案,包含数据生成、经…

mybatis-plus实操

如何生成完全看项目&#xff0c;有的人是用管理系统生成&#xff0c;还有其他人可能是.....。博主这里是用插件生成 我是插件的话&#xff0c;先在ide连接上数据源&#xff0c;然后对表右键&#xff0c;直接来到下面这个步骤&#xff0c; 第一次是新增6个文件&#xff0c;我们…

Mergekit——任务向量合并算法Ties解析

Mergekit——高频合并算法 TIES解析 Ties背景Ties 核心思想具体流程总结 mergekit项目地址 Mergekit提供模型合并方法可以概况为三大类&#xff1a;基本线性加权、基于球面插值、基于任务向量&#xff0c;今天我们来刷下基于任务向量的ties合并方法&#xff0c;熟悉原理和代码。…

YOLOv8 在单片机上部署的缺点和应对方案

YOLOv8 在单片机上部署的主要挑战与缺陷 将 YOLOv8 部署到单片机上确实面临诸多技术挑战&#xff0c;主要源于单片机有限的计算资源与 YOLOv8 模型的高复杂度之间的矛盾。以下是具体的缺陷和限制&#xff1a; 1. 计算资源严重不足 算力限制&#xff1a;典型单片机&#xff0…