开源OCR模型对比

引言

目前,开源的项目中有很多 OCR 模型,但是没有一个统一的基准来衡量哪个是更好一些的。
面对这么多的模型,让我们有些不知所措。为此,最近一段时间以来,我一直想要构建这样一个基准,现在来看,已经初步具有雏形。

为了能更好地评测各个模型效果,收集标注了两个开源评测集:

  • text_det_test_dataset
  • text_rec_test_dataset

为了能够方便计算各个模型指标,整理开源了两个计算常用指标的库:

  • TextDetMetric
  • TextRecMetric

以下结果均是基于以上 4 个库来的,其指标结果仅仅代表在指定评测集上效果,不代表在其他测试集上结果也是如此,仅供参考。

以下表格中推理时间是基于 MacBook Pro M2 运行所得,不同机器会有差别,请侧重查看彼此之间的比较。

指标计算都是在相同参数下计算得来,差别仅在于模型文件不同。

对应模型下载地址,参见:link。

文本检测模型

评测依赖仓库:

  • rapidocr_onnxruntime==1.3.16: link
  • 计算指标库 TextDetMetric: link
  • 测试集 text_det_test_dataset: link

详情可以移步AI Studio运行查看。

模型模型大小PrecisionRecallH-meanSpeed(s/img)
ch_PP-OCRv4_det_infer.onnx4.5M0.83010.86590.84760.2256
ch_PP-OCRv3_det_infer.onnx2.3M0.80210.84570.82340.1660
ch_PP-OCRv2_det_infer.onnx2.2M0.75790.80100.77880.1570
ch_PP-OCRv4_det_server_infer.onnx108M0.79220.85330.82163.9093
ch_ppocr_server_v2.0_det_infer.onnx47M0.72980.81280.76910.7419
读光-文字检测-轻量化端侧 DBNet 行检测模型-中英-通用领域5.8M0.76660.81280.78900.6636
读光-文字检测-DBNet 行检测模型-中英-通用领域47.2M0.77490.81670.79520.4121
读光-文字检测-行检测模型-中英-通用领域 未跑通312M----

不同推理引擎下,效果比较:

推理引擎模型模型大小PrecisionRecallH-meanSpeed(s/img)
rapidocr_onnxruntime==1.3.16ch_PP-OCRv4_det_infer.onnx4.5M0.83010.86590.84760.2256
rapidocr_openvino==1.3.16ch_PP-OCRv4_det_infer.onnx4.5M0.83390.86290.84810.6447
rapidocr_paddle==1.3.18ch_PP-OCRv4_det_infer.onnx4.5M0.83010.86590.84760.9924
文本识别模型

评测依赖仓库:

  • rapidocr_onnxruntime==1.3.16: link
  • 计算指标库 TextRecMetric: link
  • 测试集 text_rec_test_dataset: link
模型对应 PaddleOCR 分支模型大小Exact MatchChar MatchSpeed(s/img)
ch_PP-OCRv4_rec_infer.onnxrelease/v2.710M0.83230.93550.6836
ch_PP-OCRv3_rec_infer.onnxrelease/v2.611M0.70970.89190.6362
ch_PP-OCRv4_rec_server_infer.onnxrelease/v2.786M0.79680.93810.6967
ch_PP-OCRv2_rec_infer.onnxrelease/v2.38.0M0.63870.83980.6138
ch_ppocr_mobile_v2.0_rec_infer.onnxrelease/v2.04.3M0.53230.78230.5575
读光-文字识别-行识别模型-中英-文档印刷体文本领域-73M0.59680.7705-
读光-文字识别-行识别模型-中英-通用领域-73M0.58390.7615-
读光-文字识别-行识别模型-中英-自然场景文本领域-73M0.59030.7779-
读光-文字识别-轻量化端侧识别模型-中英-通用领域-7.4M0.54840.7515-
读光-文字识别-CRNN 模型-中英-通用领域-46M0.59350.7671-
OFA 文字识别-中文-通用场景-base 未跑通-----

不同推理引擎下,效果比较:

推理引擎模型模型大小Exact MatchChar MatchSpeed(s/img)
rapidocr_onnxruntime==1.3.16ch_PP-OCRv4_rec_infer.onnx10M0.83230.93550.6836
rapidocr_openvino==1.3.16ch_PP-OCRv4_rec_infer.onnx10M0.83230.93550.6836
rapidocr_paddle==1.3.18ch_PP-OCRv4_rec_infer.onnx10M0.83230.93550.6836
  • 输入 Shape:

    • v2: [3, 32, 320]
    • v3~v4: [3, 48, 320]
  • 不同模型,实例化示例如下:

    from rapidocr_onnxruntime import RapidOCR# v3 or v4
    engine = RapidOCR(rec_model_path="models/ch_PP-OCRv3_rec_infer.onnx",
    )# v2
    engine = RapidOCR(rec_model_path="models/ch_ppocr_mobile_v2.0_rec_infer.onnx",rec_img_shape=[3, 32, 320],
    )
    

后续更新,请移步:link

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/821240.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

当当图书网数据采集分析:10万条数据的深入洞察

基于搜索结果,我将为您提供一个关于当当图书网数据采集的文章框架,假设我们已经有了10万条数据的采集结果。请注意,由于没有具体的数据文件,以下内容将是一个示例性的框架,您可以根据实际采集到的数据进行填充和调整。…

1.2MHz,固定频率白光LED驱动器

一、产品概述 TX6216是一款升压转换器,设计用于通过单节锂离子电池驱动多达7个串联的白光LED。 TX6216采用电流模式,固定频率架构来调节LED电流,LED电流通过外部电流检测电阻测量。其低104mV反馈电压可降低功率损耗并提高效率。 TX6216具有…

懒人建站工具过时了?试试这6个WordPress主题,1小时实现高效建站

懒人建站工具,凭借简单易用、快速上手和个性化定制的特点,为不熟悉代码和程序的人提供了搭建美观实用网站的便捷途径。无需专业的前端开发知识,无需雇佣专业开发人员,用户便能轻松实现网站搭建,满足个人或企业需求。懒…

13.C++常用的算法_查找算法

文章目录 遍历算法1. adjacent_find代码工程运行结果 2. binary_search()代码工程运行结果 3. count()代码工程运行结果 4. count_if()代码工程运行结果 遍历算法 1. adjacent_find 代码工程 查找相邻元素是否存在,不存在返回容器最后位置的迭代器#define _CRT_SECURE_NO_WA…

Rustdesk如何编译代码实现安装后,不会在右下角出现托盘图标

环境: Rustdesk1.1.9 问题描述: Rustdesk如何编译代码实现安装后,不会在右下角出现托盘图标 解决方案: 安装后只有自定义进程图标 详细方案,有需要私聊

2023年城市交通系统客流量预测算法赛

ref: 2023中国华录杯数据湖算法大赛 该比赛马上就要结束,0424日答辩。获得了前六的名次,本次比赛给我的感觉就是一言难尽呐。答辩结束再补充吧。

PySpark预计算ClickHouse Bitmap实践

1. 背景 ClickHouse全称是Click Stream,Data WareHouse,是一款高性能的OLAP数据库,既使用了ROLAP模型,又拥有着比肩MOLAP的性能。我们可以用ClickHouse用来做分析平台快速出数。其中的bitmap结构方便我们对人群进行交并。Bitmap位…

中国新质生产力水平(原始+测算+结果)-企业和各省数据集

新质生产力是一个至少涵盖科技、绿色和数字三大方面的集成体,对其评价测度需要依托多属性综合评价方法。文章构建了包含3个一级指标、6个二级指标和18个三级指标的综合体系,采用改进的熵权-TOPSIS方法对指标进行赋权,从而得到全国新质生产力发…

rhce.定时任务和延迟任务项目

一 . 在系统中设定延迟任务要求如下: 在系统中建立 easylee 用户,设定其密码为 easylee 延迟任务由 root 用户建立 要求在 5 小时后备份系统中的用户信息文件到/backup中 确保延迟任务是使用非交互模式建立 确保系统中只有 root 用户和easylee用户可以…

Spring学习(二)

图解: 2.核心容器总结 2.2.1 容器相关 BeanFactory是IoC容器的顶层接口,初始化BeanFactory对象时,加载的bean延迟加载 ApplicationContext接口是Spring容器的核心接口,初始化时bean立即加载 ApplicationContext接口提供基础的be…

阿里云优惠券种类介绍及领取教程详解

随着互联网技术的快速发展,越来越多的企业和个人开始将业务和数据迁移到云端。阿里云作为国内领先的云服务提供商,为广大用户提供了丰富多样的云产品和服务。为了回馈用户,阿里云经常推出各种优惠活动,其中优惠券就是其中一种常见…

设计编程网站集:动物,昆虫,蚂蚁养殖笔记

入门指南 区分白蚁与蚂蚁 日常生活中,人们常常会把白蚁与蚂蚁搞混淆,其实这两者是有很大区别的,养殖方式差别也很大。白蚁主要食用木质纤维,会给家庭房屋带来较大危害,而蚂蚁主要采食甜食和蛋白质类食物,不…

【Linux】服务器硬件及RAID配置实战

目录 一、服务器 1.服务器 2.查看服务器信息 二、RAID 磁盘阵列 三、软RAID的创建和使用 1.添加硬盘,fdisk分区,分区类型ID设置为 fd 2.使用mdadm创建软raid 3.格式化 4.挂载使用 5.mdadm 一、服务器 1.服务器 分类机架式居多 塔…

ubuntu安装vulnhub

文章目录 1.下载docker2.申请加速器3.安装pip4.安装docker-compose5.安装git6.安装vulnhub文件7.运行vulhub中的靶机TypeError: kwargs_from_env() got an unexpected keyword argument ssl_version报错8.tomcat-----CVE-2017-12615(任意文件上传)1.访问192.168.9.101:80802.bp…

【解读】《中华人民共和国网络安全法》:所有IT从业者都应知应懂

随着网络的快速发展,当今社会存在的网络安全问题也是接踵而来:网络入侵、网络攻击等非法活动威胁信息安全;非法获取公民信息、侵犯知识产权、损害公民合法利益;宣扬恐怖主义、极端主义,严重危害国家安全和社会公共利益…

彻底解决 pyshark 库 TShark not found

使用 python 运行 github 某个项目处理 pcap 包时遇到如下报错: (先安装了 pyshark 库) pyshark.tshark.tshark.TSharkNotFoundException: TShark not found. Try adding its location to the configuration file. Searched these paths: […

微博聚类文本分析和可视化

本文使用python抓取微博数据并对微博文本分析和可视化,LDA(树图)、关系图、词云、时间趋势(折线图)、热度地图、词典情感分析(饼图和3D柱状图)、词向量神经网络情感分析、tfidf聚类、词向量聚类…

前端layui自定义图标的简单使用

iconfont-阿里巴巴矢量图标库 2. 3. 4.追加新图标 5.文件复制追加新图标 如果图标不是一次性下载完成的,后续需要追加的话必须重新建立一个新文件夹然后重新引入就行

(踩坑)Please refer to 异常和Error creating bean with name 异常

一、Please refer to 异常 如图所示,在使用maven构建项目的时候,如果提示该错误,则可能是xml配置文件有问题或者测试类等。但是没有明确的异常信息,所以做以下小改动,可以查看异常信息。 在IDEA工具中,打…

数学建模--深入剖析线性规划(模型全方位解读+代码分析)

1.简介 (1)线性规划三要素 (2)模型适用赛题 2.典例讲解 (1)问题分析 目标函数是净收益尽可能大,风险尽可能小; 约束条件是交易费的分段函数,以及每一笔投资都是非负数&am…