​ PaddleHub 首页图像 - 文字识别chinese_ocr_db_crnn_server​

PaddleHub

便捷地获取PaddlePaddle生态下的预训练模型,完成模型的管理和一键预测。配合使用Fine-tune API,可以基于大规模预训练模型快速完成迁移学习,让预训练模型能更好地服务于用户特定场景的应用

零基础快速开始WindowsLinuxMac

 PaddleHub 首页图像 - 文字识别chinese_ocr_db_crnn_server

chinese_ocr_db_crnn_server

类别图像 - 文字识别

网络Differentiable Binarization+CRNN

数据集icdar2015数据集

模型概述

chinese_ocr_db_crnn_server Module用于识别图片当中的汉字。其基于chinese_text_detection_db_server检测得到的文本框,继续识别文本框中的中文文字。之后对检测文本框进行角度分类。最终识别文字算法采用CRNN(Convolutional Recurrent Neural Network)即卷积递归神经网络。其是DCNN和RNN的组合,专门用于识别图像中的序列式对象。与CTC loss配合使用,进行文字识别,可以直接从文本词级或行级的标注中学习,不需要详细的字符级的标注。该Module是一个通用的OCR模型,支持直接预测。

选择模型版本进行安装

1.2.0 (最新版)

$ hub install chinese_ocr_db_crnn_server==1.2.0

chinese_ocr_db_crnn_server

模型名称chinese_ocr_db_crnn_server
类别图像-文字识别
网络Differentiable Binarization+RCNN
数据集icdar2015数据集
是否支持Fine-tuning
模型大小116MB
最新更新日期2021-05-31
数据指标mAP@0.98

一、模型基本信息

  • 应用效果展示

    • OCR文字识别场景在线体验
    • 样例结果示例:

  • 模型介绍

    • chinese_ocr_db_crnn_server Module用于识别图片当中的汉字。其基于chinese_text_detection_db_server Module 检测得到的文本框,识别文本框中的中文文字。识别文字算法采用CRNN(Convolutional Recurrent Neural Network)即卷积循环神经网络。该Module是一个通用的OCR模型,支持直接预测。

  • 更多详情参考:An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition

二、安装

  • 1、环境依赖

    • paddlepaddle >= 2.2.0

    • paddlehub >=2.2.0

    • shapely

    • pyclipper

    • $ pip install shapely pyclipper
    • 该Module依赖于第三方库shapely和pyclipper,使用该Module之前,请先安装shapely和pyclipper。
  • 2、安装

    • $ hub install chinese_ocr_db_crnn_server

三、模型API预测

  • 1、命令行预测

    • $ hub run chinese_ocr_db_crnn_server --input_path "/PATH/TO/IMAGE"
  • 2、预测代码示例

    • import paddlehub as hub
      import cv2ocr = hub.Module(name="chinese_ocr_db_crnn_server", enable_mkldnn=True)       # mkldnn加速仅在CPU下有效
      result = ocr.recognize_text(images=[cv2.imread('/PATH/TO/IMAGE')])# or
      # result = ocr.recognize_text(paths=['/PATH/TO/IMAGE'])
  • 3、API

    • def __init__(text_detector_module=None, enable_mkldnn=False)
      • 构造ChineseOCRDBCRNNServer对象

      • 参数

        • text_detector_module(str): 文字检测PaddleHub Module名字,如设置为None,则默认使用 chinese_text_detection_db_server Module。其作用为检测图片当中的文本。
        • enable_mkldnn(bool): 是否开启mkldnn加速CPU计算。该参数仅在CPU运行下设置有效。默认为False。
    • def recognize_text(images=[],paths=[],use_gpu=False,output_dir='ocr_result',visualization=False,box_thresh=0.5,text_thresh=0.5,angle_classification_thresh=0.9)
      • 预测API,检测输入图片中的所有中文文本的位置。

      • 参数

        • paths (list[str]): 图片的路径;
        • images (list[numpy.ndarray]): 图片数据,ndarray.shape 为 [H, W, C],BGR格式;
        • use_gpu (bool): 是否使用 GPU;若使用GPU,请先设置CUDA_VISIBLE_DEVICES环境变量
        • box_thresh (float): 检测文本框置信度的阈值;
        • text_thresh (float): 识别中文文本置信度的阈值;
        • angle_classification_thresh(float): 文本角度分类置信度的阈值
        • visualization (bool): 是否将识别结果保存为图片文件;
        • output_dir (str): 图片的保存路径,默认设为 ocr_result;
      • 返回

        • res (list[dict]): 识别结果的列表,列表中每一个元素为 dict,各字段为:
          • data (list[dict]): 识别文本结果,列表中每一个元素为 dict,各字段为: - text(str): 识别得到的文本 - confidence(float): 识别文本结果置信度 - text_box_position(list): 文本框在原图中的像素坐标,4*2的矩阵,依次表示文本框左下、右下、右上、左上顶点的坐标 如果无识别结果则data为[]
          • save_path (str, optional): 识别结果的保存路径,如不保存图片则save_path为''

四、服务部署

  • PaddleHub Serving 可以部署一个目标检测的在线服务。

  • 第一步:启动PaddleHub Serving

    • 运行启动命令:
    • $ hub serving start -m chinese_ocr_db_crnn_server
    • 这样就完成了一个目标检测的服务化API的部署,默认端口号为8866。

    • NOTE: 如使用GPU预测,则需要在启动服务之前,请设置CUDA_VISIBLE_DEVICES环境变量,否则不用设置。

  • 第二步:发送预测请求

    • 配置好服务端,以下数行代码即可实现发送预测请求,获取预测结果

    • import requests
      import json
      import cv2
      import base64def cv2_to_base64(image):data = cv2.imencode('.jpg', image)[1]return base64.b64encode(data.tostring()).decode('utf8')# 发送HTTP请求
      data = {'images':[cv2_to_base64(cv2.imread("/PATH/TO/IMAGE"))]}
      headers = {"Content-type": "application/json"}
      url = "http://127.0.0.1:8866/predict/chinese_ocr_db_crnn_server"
      r = requests.post(url=url, headers=headers, data=json.dumps(data))# 打印预测结果
      print(r.json()["results"])
  • Gradio App 支持

    从 PaddleHub 2.3.1 开始支持使用链接 http://127.0.0.1:8866/gradio/chinese_ocr_db_crnn_server 在浏览器中访问 chinese_ocr_db_crnn_server 的 Gradio App。

五、更新历史

  • 1.0.0

    初始发布

  • 1.0.1

    支持mkldnn加速CPU计算

  • 1.1.0

    使用三阶段模型(文本框检测-角度分类-文字识别)识别图片文字。

  • 1.1.1

    支持文本中空格识别。

  • 1.1.2

    修复检出字段无法超过30个问题。

  • 1.1.3

    移除 fluid api

  • 1.2.0

    添加 Gradio APP

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/654388.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【更新】ESG-71个工具变量汇总(2024)

一、引言 收集了CSSCI期刊文本数据,并对“ESG”相关期刊进行文本分析,统计了71个“ESG”相关的工具变量,希望对大家提升研究效率有所帮助 工具变量是一种在统计学和计量经济学中常用的技术,用于处理因果关系研究中的内生性问题。…

452. 用最少数量的箭引爆气球 - 力扣(LeetCode)

题目描述 有一些球形气球贴在一堵用 XY 平面表示的墙面上。墙面上的气球记录在整数数组 points ,其中points[i] [xstart, xend] 表示水平直径在 xstart 和 xend之间的气球。你不知道气球的确切 y 坐标。 一支弓箭可以沿着 x 轴从不同点 完全垂直 地射出。在坐标 …

带大家做一个,易上手的家常麻辣孜然牛蹄筋

首先 我们从冰箱中拿出牛蹄筋 泡水化开 一根大葱 一块生姜 大葱切段 生姜块 一把花椒 七个左右干辣椒 五个左右大料 三瓣蒜 切成蒜片 放入小碗中单独装起来 两个绿辣椒 首选螺丝椒 垃圾切成片 单独装起来 先将牛蹄筋 倒入锅中 然后加水 将牛蹄筋全部泡住即可 然后起锅烧…

RT-Thread: STM32 SPI使用流程

1.添加驱动 ①点开设置界面 ②勾选看门 SPI 驱动 ③点击保存 ④查看添加的驱动文件 drv_spi.c 2.打开驱动头文件定义 ①打开配置文件 ②打开定义 3.打开需要开启的SPI总线 打开 drivers 目录下的 board.h 用SPI搜索,找到如下文字,打开对应的宏。 /*-…

巴厘行记(四)——乌布漫游

欢迎览阅《巴厘行记》系列文章 巴厘行记巴厘行记(一)——海神庙 巴厘行记(二)——乌布之夜 巴厘行记(三)——Auntie和Mudi 巴厘行记(四)——乌布漫游 巴厘行记(五&a…

Pytest单元测试框架

第一章、pytest概述 Pytest is a framework that makes building simple and scalable tests easy. Tests are expressive and readable—no boilerplate code required. Get started in minutes with a small unit test or complex functional test for your application or l…

深入理解与防范C语言中的栈溢出问题

一、引言 栈溢出是计算机安全领域中一个常见的漏洞,特别是在C语言编程中。由于C语言的灵活性和对内存管理的直接操作性,如果程序员在编写代码时不注意,就可能导致栈溢出的发生。本文将全面解析栈溢出的概念、原因、影响以及防范措施。 二、…

springboot+vue3支付宝接口案例-第二节-准备后端数据接口

springbootvue3支付宝接口案例-第二节-准备后端数据接口!今天经过2个小时的折腾。准备好了我们这次测试支付宝线上支付接口的后端业务数据接口。下面为大家分享一下,期间发生遇到了一些弯路。 首先,我们本次后端接口使用的持久层框架是JPA。这…

3d合并模型是重名材质---模大狮模型网

当合并3d模型时,如果存在重名的材质,可能会导致加载问题。这是因为3D软件在处理重名材质时可能会出现冲突。你可以尝试以下方法解决这个问题: 重命名材质:检查合并的模型中的材质,确保它们具有唯一的命名。修改重名的材…

Pyroch中transforms 图像增强发方法的应用

1 应用场景 在我们训练模型的时候,有的时候数据不够,就需要通过水平翻转、垂直翻转、镜像、旋转、改变亮度、标准化等方式增加图像的多样性,此时可以调用Pytorch 中的Transforms完成这些操作 2 导入相应的库 from torchvision import tran…

多场景建模:美团HiNet

HiNet: Novel Multi-Scenario & Multi-Task Learning with Hierarchical Information Extraction 背景: 美团的多场景多任务(ctr、ctcvr) 解决方案 通过分层来分别学习多场景多任务 方案详情 点评:在底层Embedding时用…

如何实现Win系统ssh连接Ubuntu使用vscode远程敲代码

最近,我发现了一个超级强大的人工智能学习网站。它以通俗易懂的方式呈现复杂的概念,而且内容风趣幽默。我觉得它对大家可能会有所帮助,所以我在此分享。点击这里跳转到网站。 文章目录 前言1、安装OpenSSH2、vscode配置ssh3. 局域网测试连接…

opencv#35 连通域分析

连通域分割原理 像素领域介绍: 4邻域是指中心的像素与它邻近的上下左右一共有4个像素,那么称这4个像素为中心像素的4邻域。 8邻域是以中心像素周围的8个像素分别是上下左右和对角线上的4个像素。 连通域的定义(分割)分为两种:以4邻域为相邻判定条件的连通域分割和…

让AI帮你说话--GPT-SoVITS教程

有时候我们在录制视频的时候,由于周边环境嘈杂或者录音设备问题需要后期配音,这样就比较麻烦。一个比较直观的想法就是能不能将写好的视频脚本直接转换成我们的声音,让AI帮我们完成配音呢?在语音合成领域已经有很多这类工作了&…

1.Mybatis入门

目录 前言 1入门 1.1 入门程序实现 1.2 数据准备 ​编辑 1.3 配置Mybatis 1.4 编写SQL语句 1.5 单元测试 1.6 解决SQL警告与提示 2. JDBC介绍(了解) 2.1 介绍 2.2 代码 2.3 问题分析 2.4 技术对比 3. 数据库连接池 3.1 介绍 3.2 产品 4. lombok 4.1 介绍 4.…

AOP+Redisson 延时队列,实现缓存延时双删策略

一、缓存延时双删 关于缓存和数据库中的数据保持一致有很多种方案,但不管是单独在修改数据库之前,还是之后去删除缓存都会有一定的风险导致数据不一致。而延迟双删是一种相对简单并且收益比较高的实现最终一致性的方式,即在删除缓存之后&…

哪些 3D 建模软件值得推荐?

云端地球是一款免费的在线实景三维建模软件,不需要复杂的技巧,只要需要手机,多拍几张照片,就可以得到完整的三维模型! 无论是大场景倾斜摄影测量还是小场景、小物体建模,都可以通过云端地球将二维数据向三…

【JLU】校园网linux客户端运行方法

终于给这输入法整好了,就像上面图里那样执行命令就行 写一个开机自启的脚本会更方便,每次都运行也挺烦的 补充了一键运行脚本,文件路径需要自己修改 #!/bin/bashrun_per_prog"sudo /home/d0/ubuntu-drclient-64/DrClient/privillege.s…

为什么3d合并的模型不能移动---模大狮模型网

当你在3D软件中合并模型后,如果无法移动合并后的模型,可能有以下几个可能的原因: 模型被锁定或冻结:在3D软件中,你可能会将模型锁定或冻结以防止意外的移动或编辑。请确保解锁或解冻模型,这样你就可以自由地…

学籍管理系统(c++文件实现)

要求: 实现增删查改,两种方式查询,登录功能 设计: 学生端:可以查询个人成绩 管理员端:对学籍信息增删查改,查看所有信息,单人信息,学籍排序,统计绩点 三个…