使用paddleocr提取PDF和图片文本

使用paddleocr提取PDF和图片文本

news/2025/10/27 10:57:41/文章来源:https://www.cnblogs.com/moon3496694/p/19168255

# pip install paddlepaddle paddleocr
import sys
from pathlib import Path
current_path = Path(__file__).resolve().parent
sys.path.append(str(current_path))import numpy as np
from paddleocr import PaddleOCR
from pdf2image import convert_from_path
from PIL import Image
from typing import Unionclass OCRPlugin:"""OCR插件"""def __init__(self):self.ocr = Noneself.init_model()def init_model(self):self.ocr = PaddleOCR(use_textline_orientation=True,doc_orientation_classify_model_dir=Path.joinpath(current_path, 'paddlex/official_models/PP-LCNet_x1_0_doc_ori'),  # './paddlex/official_models/PP-LCNet_x1_0_doc_ori',doc_unwarping_model_dir=Path.joinpath(current_path, 'paddlex/official_models/UVDoc'),  # './paddlex/official_models/UVDoc',text_detection_model_dir=Path.joinpath(current_path, 'paddlex/official_models/PP-OCRv5_server_det'),  # './paddlex/official_models/PP-OCRv5_server_det',textline_orientation_model_dir=Path.joinpath(current_path, 'paddlex/official_models/PP-LCNet_x1_0_textline_ori'),  # './paddlex/official_models/PP-LCNet_x1_0_textline_ori',text_recognition_model_dir=Path.joinpath(current_path, 'paddlex/official_models/PP-OCRv5_server_rec'),  # './paddlex/official_models/PP-OCRv5_server_rec',
                        )def process_image(self, image: Union[str, np.array]):result = self.ocr.predict(image)[0]rec_texts = result['rec_texts']return rec_textsocr = OCRPlugin()def process_pdf(pdf_path):"""处理PDF:param pdf_path::return:"""# 需自行实现PDF转图片逻辑images = convert_from_path(pdf_path)text = ""for img in images:# print(type(img))np_img = np.array(img)# print(type(np_img))rec_texts = ocr.process_image(np_img)text += "\n".join(rec_texts)return textdef process_image(img_path):"""处理图片:param img_path::return:"""img = Image.open(img_path)text = ""np_img = np.array(img)rec_texts = ocr.process_image(np_img)text += "\n".join(rec_texts)return textif __name__ == '__main__':pass

第一次运行不指定模型路径，会默认下载到本地缓存。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/947367.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

国产化Excel开发组件Spire.XLS教程：使用Python将CSV转换为XML（处理现实数据问题）

国产化Excel开发组件Spire.XLS教程：使用Python将CSV转换为XML（处理现实数据问题）

在本指南中，我们将探讨如何使用 Spire.XLS for Python 将 CSV 文件转换为 XML。你将学习如何将 CSV 转换为 Excel XML 格式以及标准 XML 。同时，我们还将介绍如何清理和预处理真实世界中的 CSV 文件——处理无效表头…

阅读更多...

2025年评价高的弥散供氧系统厂家最新推荐排行榜

2025年评价高的弥散供氧系统厂家最新推荐排行榜

2025年评价高的弥散供氧系统厂家最新推荐排行榜随着人们对健康生活品质要求的不断提高，弥散供氧系统作为改善室内空气质量、提升血氧浓度的有效解决方案，正受到越来越多医疗机构、养老院、高原酒店和高端住宅用户的青…

阅读更多...

2025 年洗碗机厂家最新推荐榜，聚焦企业技术实力与市场口碑深度解析酒店 / 学校 / 工厂 / 全自动洗碗机公司推荐

2025 年洗碗机厂家最新推荐榜，聚焦企业技术实力与市场口碑深度解析酒店 / 学校 / 工厂 / 全自动洗碗机公司推荐

据餐饮设备行业协会 2025 年第一季度测评数据显示，商用洗碗机市场合规企业仅占 68%，设备洗净率达标率不足 75%。本次推荐榜测评历时 3 个月，覆盖全国 23 个省市的 86 家源头厂家，采用 “三维九项” 测评体系：从技…

阅读更多...

css3关键字

css3关键字

场景/属性说明效果/行为子绝父相 + 子元素width:100% 子元素position: absolute，父元素position: relative，子元素设置width: 100% 宽度以父元素（最近的非static定位祖先，即包含块）为基准，与是否脱离标准流无关…

阅读更多...

文档处理控件Aspose.Words教程：Python将Markdown转换为Word

文档处理控件Aspose.Words教程：Python将Markdown转换为Word

Markdown是一种轻量级标记语言，允许用户使用简单的语法编写格式化文本。虽然它非常适合基于 Web 的内容，但在专业环境中，Word 更适合用于编辑、协作和发布。要共享、编辑或打印Markdown ( .md)文件，您有时可能需要…

阅读更多...

第八周物理实验：用扭摆法测量物体的转动惯量

第八周物理实验：用扭摆法测量物体的转动惯量

用扭摆法测量物体的转动惯量预习报告一、实验目的深入理解转动惯量的物理意义，明确其与物体质量分布、形状及转轴位置的依赖关系，掌握转动惯量的基本概念和相关特性。熟悉扭摆的构造原理和工作方式，学会正确组装、…

阅读更多...

2025 年蔬菜配送服务公司最新推荐榜，聚焦企业技术实力与市场口碑深度解析含深圳 / 宝安 / 东莞等区域优质服务商

2025 年蔬菜配送服务公司最新推荐榜，聚焦企业技术实力与市场口碑深度解析含深圳 / 宝安 / 东莞等区域优质服务商

引言为精准筛选出 2025 年蔬菜配送领域的优质企业，本次推荐榜由农产品流通与采购协会联合国内 3 家专业质检机构共同发起测评，测评周期历时 3 个月，覆盖全国 23 个重点城市的 120 余家配送企业。测评体系采用 “三…

阅读更多...

【每日一面】手写防抖函数

【每日一面】手写防抖函数

基础问答问：手写一个防抖函数答： /*** 基础版防抖函数（非立即执行）* @param {Function} func - 需要防抖的目标函数* @param {number} delay - 等待时间（毫秒）* @returns {Function} - 防抖后的函数*/ functio…

阅读更多...

最佳技术文档解决方案：用 PandaWiki 打造智能化产品文档体系

最佳技术文档解决方案：用 PandaWiki 打造智能化产品文档体系

最佳技术文档解决方案：用 PandaWiki 打造智能化产品文档体系在软件开发和产品管理领域，技术文档的质量直接影响着团队协作效率和用户体验。然而，许多团队仍然在使用传统的文档工具，面临着更新不及时、查找困难、协…

阅读更多...

模拟Ajax获取数据。表格显示, 带有分页功能，支持翻页，每页显示8行数据。响应式设计，适配不同屏幕尺寸

模拟Ajax获取数据。表格显示, 带有分页功能，支持翻页，每页显示8行数据。响应式设计，适配不同屏幕尺寸

Ajax数据表格分页:root { --primary-color: #3498db; --secondary-color: #2980b9; --border-color: #bdc3c7; --text-color: #2c3e50; --light-bg: #f8f9fa; --success-color: #2ecc71; --danger-color: #e74c3c } * …

阅读更多...

2025年10月北京工装设计公司推荐榜：五强对比评测

2025年10月北京工装设计公司推荐榜：五强对比评测

把“办公室”变成“高效能主场”是多数北京企业在2025年面临的共同命题。租金高企、人才竞争、品牌升级三重压力，让“工装”不再只是装修，而是直接影响招聘效率、客户首印象与日常运营成本的战略投入。市住建委数据显…

阅读更多...

苏州GEO企业深度解析：行业中如何选择专业服务商 - 勤懒调和者

苏州GEO企业深度解析：行业中如何选择专业服务商 - 勤懒调和者

在数字化转型浪潮中，地理空间数据已成为企业决策的核心要素。GEO技术，作为处理和分析地理空间信息的关键，正日益受到各行各业的重视。本文将深入解析GEO相关的关键技术，并为苏州地区，特别是医疗和酒店行业的企业，…

阅读更多...

高效便捷的安全数据交换系统，助力企业合规管理

高效便捷的安全数据交换系统，助力企业合规管理

高效便捷的安全数据交换系统为企业合规管理提供了坚实的基础。通过建立完善的审批管理流程，企业能够确保数据在流动中的安全与合规性。系统设计允许根据具体需求定制审核环节，确保只有符合条件的信息能够被传输。此外…

阅读更多...

2025年10月北京工装设计公司排名：五家对比指南

2025年10月北京工装设计公司排名：五家对比指南

站在2025年第四季度节点，北京甲级写字楼空置率仍维持在18%左右，企业搬迁、扩租与焕新需求同步释放，工装市场进入“性价比+体验感”双轮驱动阶段。对租户而言，工期延误一天意味着额外租金与开业损失；对业主而言，空…

阅读更多...

2025年10月防爆振动变送器厂家推荐：实力榜对比指南

2025年10月防爆振动变送器厂家推荐：实力榜对比指南

2025年10月，石化、煤矿、冶金等流程工业进入年度检修窗口，大量旋转设备需要同步升级状态监测系统。业主在招标或技改阶段普遍面临同一难题：进口防爆振动变送器交期长、价格高，而国产厂家资质、性能、服务差异大，难…

阅读更多...

跨网文件交换怎么实现审批？从需求到落地的全解析！

跨网文件交换怎么实现审批？从需求到落地的全解析！

跨网文件交换系统，是指针对物理或逻辑隔离的网络环境（如企业研发网与办公网、内网与互联网、生产网与测试网），提供文件安全传递、可控管理与合规审计的专业解决方案。其核心要素需覆盖三大维度安全防护、可控传输、…

阅读更多...

MySQLDay5（基础篇完结）

MySQLDay5（基础篇完结）

5.事务 5.1、事务简介事务是一组操作的集合，它是一个不可分割的工作单位，事务会把所有的操作作为一个整体一起向系统提交或撤销操作请求，即这些操作要么同时成功，要么同时失败。默认MySQL的事务是自动提交的，也就…

阅读更多...

2025 年优质球墨铸铁管厂家最新推荐榜，技术实力与市场口碑深度解析

2025 年优质球墨铸铁管厂家最新推荐榜，技术实力与市场口碑深度解析

引言在基础设施建设与城市给排水工程快速推进的当下，球墨铸铁管因抗压强、耐腐蚀、寿命长等优势，成为工程核心建材。但当前市场品牌繁杂，部分企业为降本缩减工艺，导致产品质量不达标，给工程埋下安全隐患；采购方…

阅读更多...

HTML之addEventListener示例

HTML之addEventListener示例

HTML之addEventListener示例 DOM 事件 DOMContentLoaded: 在初始的 HTML 文档被完全加载和解析完成后触发（不等待样式表、图片等）。 load: 在页面完全加载后触发（包括所有依赖的资源，如样式表和图片）。 beforeunl…

阅读更多...

2025 年茶叶行业优质品牌最新推荐榜，企业综合实力与市场口碑深度解析

2025 年茶叶行业优质品牌最新推荐榜，企业综合实力与市场口碑深度解析

引言茶叶市场品牌迭代加速，消费者与采购商对品牌筛选的专业性需求日益提升。为破解 “选品难” 痛点，本次榜单依托中国农业国际合作促进会茶产业分会《2024 年全国茶叶区域公用品牌影响力指数报告》测评框架，联合中…

阅读更多...

最新文章