使用Unstructured处理PDF文件的前置安装项

news/2025/11/27 10:02:29/文章来源:https://www.cnblogs.com/1014040868lyn/p/19275716

1. poppler
如果遇到报错pdf2image.exceptions.PDFInfoNotInstalledError: Unable to get page count. Is poppler installed and in PATH?,则表明环境中缺少一个名为poppler的依赖库,或者它没有被正确地添加到系统的PATH环境变量中。unstructured库在处理PDF文件时,会依赖pdf2image,而pdf2image则需要poppler来处理 PDF。为了解决安装问题需要执行下面两个步骤:

1.1 安装 poppler
访问此https://github.com/oschwartz10612/poppler-windows/releases/下载最新的压缩包,压缩包的名字大概如Release-24.08.0-0.zip。解压后会得到一个poppler-24.08.0的文件夹,将解压后的文件夹放置到一个本地位置,例如C:\根目录。

1.2 配置环境变量
将刚刚解压后的Poppler文件夹中的bin文件夹的完整路径添加到系统环境变量path中。文件夹路径例如:C:\poppler-24.08.0-0\Library\bin。记得一路点击“确定”保存更改。

重启电脑!!!重启电脑!!!重启电脑!!!

2. Tesseract
https://github.com/UB-Mannheim/tesseract/wiki  ,Tesseract 是一个开源的光学字符识别(OCR)引擎。当 unstructured 处理 PDF 文件时(特别是 hi_res 策略),它首先会像人眼一样看PDF 的页面布局(这是由一个叫YOLOX的模型完成的)。然后,对于页面上的图像或者非文本部分,unstructured会使用Tesseract来“读取”这些图像中的文字,将它们转换成可编辑的文本。解决方案与我们处理poppler时如出一辙:我们需要下载、安装 Tesseract,并将其配置到系统路径中。

2.1 安装 Tesseract
访问此链接,下载最新的安装程序。通常文件名会是 tesseract-ocr-w64-setup-vX.X.X…exe (适用于64位系统)。

image

 

运行刚刚下载的安装程序。在安装过程中,会有一个选择组件的步骤,为了以防万一,可以选择安装多种语言的识别包:勾选"Additional language data"。

记下安装路径,默认路径通常是C:\Program Files\Tesseract-OCR。

image

 


2.2 配置环境变量
在系统环境变量path中添加刚刚记下的安装路径:如C:\Program Files\Tesseract-OCR。
除此之外,推荐再新建一个环境变量来告诉 Tesseract 语言包在哪里。新建如下系统变量:

变量名: TESSDATA_PREFIX
变量值: C:\Program Files\Tesseract-OCR\tessdata
至此,如果在终端中输入tesseract --version能正常输出版本号,则说明安装成功。

3. yolox模型

from unstructured.partition.pdf import partition_pdffname = "C:\\Users\\Lenovo\\Desktop\\2023量化\\附件2 信息学院本科生素质量化考评办法.pdf"
elements = partition_pdf(filename=fname,strategy='hi_res',hi_res_model_name="yolox")
for el in elements:if el["type"] == "Table":print(el["metadata"]["text_as_html"])
#     print(el.type),

错误信息:

SSLError: (MaxRetryError("HTTPSConnectionPool(host='huggingface.co', port=443): Max retries exceeded with url: /unstructuredio/yolo_x_layout/resolve/main/yolox_l0.05.onnx (Caused by SSLError(SSLCertVerificationError(1, '[SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1129)')))"), '(Request ID: 757ef56e-88d9-4a7a-88ef-ff3fade2139c)')

解决方法:在hanggingface中下载模型,并修改配置
https://改为huggingface中文的.com/unstructuredio/yolo_x_layout/tree/main

1.下载

​ 下载地址:unstructuredio/yolo_x_layout at main (huggingface.co)

​ 2.修改配置

​ 打开python包所在的文件夹:

​ Lib\site-packages\unstructured_inference\models\yolox.py

​ 修改37行代码:

MODEL_TYPES = {"yolox": LazyDict(model_path='你的模型地址',label_map=YOLOX_LABEL_MAP,),"yolox_tiny": LazyDict(model_path=LazyEvaluateInfo(download_if_needed_and_get_local_path,"unstructuredio/yolo_x_layout","yolox_tiny.onnx",),label_map=YOLOX_LABEL_MAP,),"yolox_quantized": LazyDict(model_path=LazyEvaluateInfo(download_if_needed_and_get_local_path,"unstructuredio/yolo_x_layout","yolox_l0.05_quantized.onnx",),label_map=YOLOX_LABEL_MAP,),
}

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/978058.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Windows启动Redis没有出现图标的解决方法

如果在Windows启动启动Redis没有出现图标打开任务管理器,找到redis服务,右键点击停止再重新启动Redis,就会出现图标

2025年11月开关电源厂家推荐榜单与选择指南,分析参考

随着工业自动化、新能源及智能基础设施的快速发展,开关电源作为关键电力转换部件,其稳定性、能效及适配性日益受到行业用户的重视。选择一家可靠的开关电源厂家,不仅关乎设备长期运行的稳定性,也直接影响项目成本与…

多核通信(AMPSMP)

多核通信(AMP&SMP)一 AMP:《结合FreeRTOS理解M4和M7双核MCU的消息通信》一个内核在另一个内核中具有生成中断的能力,以及两个内核都有访问的内存区域(共享内存)。消息缓冲区以每个内核上运行在应用程序已知的…

数据采集与技术融合班级作业四102302119庄靖轩

数据采集与融合实验报告 作业① 1)实验内容 要求: ▪ 熟练掌握 Selenium 查找HTML元素、爬取Ajax网页数据、等待HTML元素等内 容。 ▪ 使用Selenium框架+ MySQL数据库存储技术路线爬取“沪深A股”、“上证A股”、 “…

Mac法打开“xampp-osx-8.0.28-0-installer”,因为无法验证开发者。

1.打开“系统设置” 2.选择“隐私与安全性”,下面“安全性”那边有是否允许的弹窗提示,选择允许

2025年专业的食品卫生级阀门TOP实力厂家推荐榜

2025年专业的食品卫生级阀门TOP实力厂家推荐榜行业背景与市场趋势随着全球食品工业的持续发展和卫生标准的不断提高,食品卫生级阀门作为关键流体控制设备,其市场需求呈现稳定增长态势。据最新行业报告显示,2024年全…

连续流光化学实践:光溴化反应(光化学溴化)的国际品牌与国产方案比较

泊菲莱凭借完善的光化学装备体系、从毫升级到升级的连续流覆盖能力,以及在医药与光合成领域的大量工程化验证案例,已成为国内光溴代及光化学合成研究的核心供应商。而 Peschl、Luzchem、Chemtrix 等国际品牌在光源精…

【05】海康相机开发——MVS基础简介、SDK开发包介绍(开发文档、库、示例)、MVS基础特性结合SDK讲解、运行时库路径、相机出图与SDK取图机制、开始采集停止采集

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

2025年质量好的液压机TOP实力厂家推荐榜

2025年质量好的液压机TOP实力厂家推荐榜 开篇:液压机行业背景与市场趋势 液压机作为现代工业制造的核心设备之一,广泛应用于汽车制造、航空航天、电子元件、金属加工等领域。随着工业4.0的深入推进,市场对液压机的…

2025 年 11 月食材配送厂家实力推荐榜:学校/医院/企业/工厂/餐厅/酒店/产业园/工业园全场景高效配送服务,新鲜直达与品质保障之选

2025 年 11 月食材配送厂家实力推荐榜:学校/医院/企业/工厂/餐厅/酒店/产业园/工业园全场景高效配送服务,新鲜直达与品质保障之选 行业背景与发展趋势 随着社会经济发展和消费升级,食材配送行业正迎来前所未有的发展…

2025 年 11 月精密机械加工厂家实力推荐榜:航空航天/无人机/军工/核电/氢能/钛合金零部件批量加工专家,匠心工艺与尖端技术深度解析

2025 年 11 月精密机械加工厂家实力推荐榜:航空航天/无人机/军工/核电/氢能/钛合金零部件批量加工专家,匠心工艺与尖端技术深度解析 行业背景与发展趋势 精密机械加工作为现代制造业的核心环节,在航空航天、无人机、…

2025年11月热敏纸工厂口碑评价:五大企业性能服务多维度比较

热敏纸作为餐饮、医疗、零售等行业日常运营的关键耗材,其质量直接影响打印清晰度、数据保存时长及设备兼容性。许多企业在选择热敏纸工厂时,常面临产品适配性不明、资质真伪难辨、定制响应速度慢等痛点。根据行业调研…

2025年11月开关电源厂家口碑评价排行榜及解决方案指南

随着工业自动化和智能制造的快速发展,开关电源作为关键基础元件,其稳定性与能效表现直接影响设备运行质量。许多工程师、采购负责人或系统集成商在选择开关电源厂家时,常面临产品兼容性、技术支持和长期供货稳定性等…

河南商水种菇学技术,卫东15年老牌培训更靠谱!

河南商水种菇学技术,卫东15年老牌培训更靠谱!商水种菇学技术,卫东 15 年老牌培训更靠谱!轻松开启致富路“想种菇没技术?怕风险不敢试?来商水县卫东蘑菇种植农民专业合作社,15 天教会你,种出的菇不愁卖!” 这是…

2025年11月自动化厂家推荐榜单与市场分析报告

在当今工业自动化快速发展的背景下,选择一家可靠的自动化设备供应商是企业提升生产效率、保障系统稳定运行的关键决策。用户通常面临着技术更新迭代快、产品兼容性要求高、售后服务响应速度等核心痛点。无论是大型制造…

2025年11月自动化厂家推荐榜单:知名品牌综合对比与选择指南

在当今制造业转型升级的浪潮中,自动化技术已成为提升生产效率、保障产品质量的关键支撑。选择一家可靠的自动化厂家,对于企业实现智能化改造、降低运营成本具有深远影响。许多企业在决策过程中常面临信息不对称、技术…

2025年靠谱的天然乳胶量身定制床垫厂家最新TOP排行榜

2025年靠谱的天然乳胶量身定制床垫厂家最新TOP排行榜开篇:行业背景与市场趋势随着消费者对睡眠质量要求的不断提高,天然乳胶床垫凭借其透气性好、抑菌防螨、贴合人体曲线等优势,逐渐成为市场新宠。2025年,天然乳胶…

破解电能质量难题!艾科瑞无功补偿与谐波治理,助企业远离力调电费罚款 (5)

破解电能质量难题!艾科瑞无功补偿与谐波治理,助企业远离力调电费罚款在工业生产与商业运营中,电能质量直接决定企业成本、设备寿命与生产效率。但众多企业正受三大 “隐形损耗” 困扰:无功功率超标导致的力调电费罚…

吴恩达深度学习课程三: 结构化机器学习项目 第一周:机器学习策略(三)模型性能与“人类性能”

此分类用于记录吴恩达深度学习课程的学习笔记。 课程相关信息链接如下:原课程视频链接:[双语字幕]吴恩达深度学习deeplearning.ai github课程资料,含课件与笔记:吴恩达深度学习教学资料 课程配套练习(中英)与答案…

2025不锈钢管业企业TOP5权威推荐:金创管业管理水平如何

工业流体输送与城市基建领域中,企业对不锈钢管、管件、法兰的合规性+产能稳定性+管理可靠性需求日益严苛。2024年行业数据显示,超30%的工程延误源于供应商生产能力不足,25%的质量纠纷聚焦产品是否符合国家标准,而管…