pdf2image的poppler-Linux支持安装教程

文章目录

    • 使用目的
    • 下载源码
    • 安装依赖
      • 直接安装的依赖
      • 需要编译的依赖
        • 1、libassuan
        • 2、gpgme
        • 3、libb2
        • 4、pcre2
        • 5、Qt6
    • 命令行编译命令-poppler
    • 测试
    • 小结

使用目的

我想要解决的问题是以最快的速度抽取PDF中的图片,再和对应文本进行关联,最终适配到LangChain上
经过调研pdf2image的covert_from_byte的sthread_count 参数,可以启动多线程会大大加快转换速度

我的系统是openEuler,命令使用和CentOS一样

下载源码

https://poppler.freedesktop.org/
我选择的是 poppler-24.01.0.tar.xz

安装依赖

直接安装的依赖

sudo yum install nss-devel fontconfig-devel libfreetype6-dev libtiff-devel mesa-libGL-devel ninja-build systemd-devel pcre2 pcre2-devel glib2 glib2-devel autoconf automake libtool harfbuzz-devel lcms2-devel libcurl-devel poppler-cpp-devel

需要编译的依赖

1、libassuan
wget https://www.gnupg.org/ftp/gcrypt/libassuan/libassuan-2.5.5.tar.bz2
tar xjf libassuan-2.5.5.tar.bz2
cd libassuan-2.5.5
./configure --prefix=/usr/local
make -j4
sudo make install
2、gpgme
wget https://www.gnupg.org/ftp/gcrypt/gpgme/gpgme-1.19.0.tar.bz2
tar xjf gpgme-1.19.0.tar.bz2
cd gpgme-1.19.0
./configure --prefix=/usr/local
make -j4
sudo make install
3、libb2
git clone https://github.com/BLAKE2/libb2.git
cd libb2
autoreconf -fi
./configure
make
sudo find / -name libb2.pc 2>/dev/null
# /home/HwHiAiUser/work/pdf_to_sql/BLAKE2/libb2/libb2.pc
export PKG_CONFIG_PATH=/path/to/libb2:$PKG_CONFIG_PATH
4、pcre2
rm /home/anaconda3/cmake/pcre2-config.cmake
rm /home/anaconda3/cmake/pcre2-config-version.cmake # 删除虚拟环境中的,防止后面干扰
rpm -ql pcre2-devel # 查看pcre2的安装位置,方便后面设置路径,参考:
# -DPCRE2_INCLUDE_DIRS=/usr/include -DPCRE2_LIBRARY=/usr/lib64/libpcre2.so
5、Qt6

下载qt-everywhere-src-6.2.4.tar.xz

tar xf qt-everywhere-src-6.2.4.tar.xz
cd qt-everywhere-src-6.2.4
vim CMakeLists.txt
# 在第4行开始加入
set(CMAKE_BUILD_WITH_INSTALL_RPATH TRUE)
set(CMAKE_INSTALL_RPATH "${CMAKE_INSTALL_PREFIX}/lib;/usr/lib64;/usr/lib;/home/anaconda3/lib")
# 保存后运行
./configure -DPCRE2_INCLUDE_DIRS=/usr/include -DPCRE2_LIBRARY=/usr/lib64/libpcre2.so -DPCRE2_FIND_COMPONENTS="8BIT;16BIT"
# 运行成功后显示
# -- Build files have been written to: /home/HwHiAiUser/work/pdf_to_sql/qt-everywhere-src-6.2.4
cmake --build . --parallel
make

命令行编译命令-poppler

我无法编译成功QT,五花八门的报错
所以只能关闭QT特性

cd poppler-24.01.0.tar.xz
vim CMakeCache.txt
ENABLE_QT5:BOOL=OFF 
ENABLE_QT6:BOOL=OFF

一共4个全部从NO改为OFF

mkdir build
cd build 
cmake .. 
make 
make install

最终成功安装

export LD_LIBRARY_PATH=/usr/local/lib64:$LD_LIBRARY_PATH

添加一下路径

pdfinfo

查看版本输出

pdfinfo version 24.01.0
Copyright 2005-2024 The Poppler Developers - http://poppler.freedesktop.org
Copyright 1996-2011, 2022 Glyph & Cog, LLC
Usage: pdfinfo [options] <PDF-file>-f <int>             : first page to convert-l <int>             : last page to convert-box                 : print the page bounding boxes-meta                : print the document metadata (XML)-custom              : print both custom and standard metadata-js                  : print all JavaScript in the PDF-struct              : print the logical document structure (for tagged files)-struct-text         : print text contents along with document structure (for tagged files)-isodates            : print the dates in ISO-8601 format-rawdates            : print the undecoded date strings directly from the PDF file-dests               : print all named destinations in the PDF-url                 : print all URLs inside PDF objects (does not scan text content)-enc <string>        : output text encoding name-listenc             : list available encodings-opw <string>        : owner password (for encrypted files)-upw <string>        : user password (for encrypted files)-v                   : print copyright and version info-h                   : print usage information-help                : print usage information--help               : print usage information-?                   : print usage information

测试

import pdfplumber
import PyPDF2
import pdf2image
from pdf2image import convert_from_path,convert_from_bytes
import tempfile
from pdf2image.exceptions import PDFInfoNotInstalledError, PDFPageCountError, PDFSyntaxError
import osfile_path = r'xxx.pdf' # PDF 文件路径
dir_path = r'output' # 存放图片的文件夹def pdf2image2(file_path, dir_path):images = convert_from_path(file_path, dpi=300)for image in images:if not os.path.exists(dir_path):os.makedirs(dir_path)image.save(dir_path + f'\img_{images.index(image)}.png', 'PNG')pdf2image2(file_path, dir_path)

小结

也许直接安装poppler-cpp-devel就可以成功,但是我是最后才安装的
pdf2image就是需要libpoppler.so.133,我现在也不清楚/usr/local/lib64中的libpoppler.so.133是poppler-cpp-devel安装的,还是编译poppler安装的了

sudo find / -name libpoppler.so.133
/usr/local/lib64/libpoppler.so.133
/home/HwHiAiUser/work/pdf_to_sql/poppler-24.01.0/build/libpoppler.so.133
export LD_LIBRARY_PATH=/usr/local/lib64:$LD_LIBRARY_PATH
export LD_LIBRARY_PATH=/home/HwHiAiUser/work/pdf_to_sql/poppler-24.01.0/build:$LD_LIBRARY_PATH

如果上述命令无效

vim /etc/ld.so.conf
# 添加:/usr/local/lib64
sudo ldconfig

编译QT6时出现了报错error: macro names must be identifiers
意义:宏名称必须是标识符,C++和C中命名变量时不能以数字开头,定义宏时也不能
在qt-everywhere-src-6.2.4/qtbase/src/3rdparty这个文件这里,就是数字开头,我尝试修改,无效
还有的报错是说磁盘空间不够,xxx包不支持等,依赖太多了

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/624423.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Nginx 配置反向代理 - part 3

继承上文&#xff1a; Nginx location 配置 - Part 2 之前 介绍了 nginx 配置web服务器&#xff0c; 但是用nginx 多的情况下是作为反向代理。 本问就是介绍如何利用nginx 配置反向代理服务。 什么是 反向代理 和 正向代理 一张图很清楚地表达了 正向代理 所谓正向代理就是…

oracle11g数据导出和导入

利用数据泵导出导入数据 命令&#xff1a;EXPDP/IMPDP 第一&#xff1a;创建directory对象&#xff0c;可以在命令行&#xff0c;也可以在客户端上运行 CREATE DIRECTORY DUMP_DIR AS /home/dump 原因&#xff1a;导入导出工具只能将转储文件存放在DIRECTORY对象对应的os目…

世微 AP5219 平均电流型LED降压恒流驱动器 电动摩托汽车灯芯片

产品描述 特点 AP5219 是一款 PWM工作模式, 高效率、外 围简单、内置功率管&#xff0c;适用于5V&#xff5e;100V输入的高 精度降压 LED 恒流驱动芯片。输出功率可达 25W&#xff0c;电流 2.5A。 AP5219 可实现全亮/半亮功能切换&#xff0c;通过 MODE 切换&#xff1a;全亮…

手搓一个Notes Kill文件

大家好&#xff0c;才是真的好。 无论是资源使用&#xff0c;还是Notes客户机运行本身的卡顿&#xff0c;有时候都会造成事实上的程序无响应&#xff0c; 对于心急的人们&#xff0c;自然而然倾向于彻底结束Notes程序运行&#xff0c;然后重新开始&#xff0c;就像打游戏一样…

SambertHifigan模型训练训练出错-list index out of range

模型的地址是 SambertHifigan个性化语音合成-中文-预训练-16k 错误描述 如上图&#xff0c;在运行训练命令&#xff08;train.py&#xff09;的时候&#xff0c;会出现这个错误&#xff0c; 错误解决 上面这个错误并不是train.py的问题&#xff0c;是上一步骤 auto_label.py的…

基于STM32设计的智能饮水机(微信小程序)

一、项目背景 随着社会科技的快速发展以及人们对健康生活品质追求的提升,饮水设备已经从传统单一功能的开水器向智能化、多功能化的方向转变。智能饮水机作为家庭与办公环境中的重要组成部分,其市场需求日益增长,用户期待能实时监测水质、精确控制水温和水量,并实现远程操…

刚上线三天,OpenAI GPT 商店的「AI 女友」就已泛滥丨 RTE 开发者日报 Vol.126

开发者朋友们大家好&#xff1a; 这里是 「RTE 开发者日报」 &#xff0c;每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE &#xff08;Real Time Engagement&#xff09; 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文…

一个小技巧教你制作电子样册

据统计&#xff0c;使用电子样册的企业&#xff0c;转化率可提高高达30%。与传统纸质样册相比&#xff0c;电子样册的阅读率更高&#xff0c;互动性更强&#xff0c;更能吸引潜在客户的关注。此外&#xff0c;电子样册还可以随时更新和修改&#xff0c;保持品牌形象的新鲜感。 …

pod控制器

1、定义 又称工作负载&#xff0c;用于管理pod的中间层&#xff0c;确保pod资源符合预期的状态&#xff08;副本数、容器的重启策略、镜像拉取策略、pod出现故障时的重启等&#xff09; 2、控制器类型 replicaSet 指定pod副本的数量。三个组件&#xff1a;①pod的副本数②标…

ChatGPT4.0 >ChatGPT 3.5 > 文心一言

ChatGPT和文心一言 前言 ChatGPT是一种基于自然语言处理的对话型人工智能模型&#xff0c;由OpenAI开发。它是使用了大规模的语料库进行无监督学习的结果&#xff0c;并且在生成自然流畅的文本方面表现出色。 ChatGPT可以用于各种对话任务&#xff0c;例如回答问题、提供建议…

工智能基础知识总结--特征工程之特征选择

特征选择的目标 构造机器学习的模型的目的是希望能够从原始的特征数据集中学习出问题的结构与问题的本质,此时的挑选出的特征就应该能够对问题有更好的解释;特征决定了机器学习的上限,而模型和算法只是去逼近这个上限,所以特征选择的目标大概如下: 提高预测的准确性;减少…

计算机网络——HTTP协议

1. HTTP的概述 HTTP&#xff08;超文本传输协议&#xff09;&#xff0c;定义在RFC2616中&#xff0c;是用于分布式和协作式多媒体系统之间交互的应用层通信协议。 1.1 无状态 HTTP是一个无状态协议&#xff0c;意味着它不保存先前交互的记录。每个请求都独立于其他请求处理。…

mysql原理--redo日志2

1.redo日志文件 1.1.redo日志刷盘时机 我们前边说 mtr 运行过程中产生的一组 redo 日志在 mtr 结束时会被复制到 log buffer 中&#xff0c;可是这些日志总在内存里呆着也不是个办法&#xff0c;在一些情况下它们会被刷新到磁盘里&#xff0c;比如&#xff1a; (1). log buffer…

硬盘恢复软件如何恢复硬盘数据?分享使用方法

在数字时代&#xff0c;数据的重要性不言而喻。一旦硬盘发生数据丢失&#xff0c;在未备份数据的情况下&#xff0c;对于个人和企业来说可能造成巨大的损失。然而&#xff0c;随着技术的进步&#xff0c;硬盘恢复软件已经成为解决这一问题的有效工具。它能够有效处理一些不是物…

uniapp 图片保持宽高比,撑满屏幕宽度

image 标签添加 mode"widthFix" <image mode"widthFix" :src"detailData.coverImageURL" />image 标签添加样式 image {width: 100%;height: auto; }

浅谈vue响应式

响应式简单理解&#xff1a;当一个对象的属性发生变化的时候调用一个回调函数 要想做到上述功能需要具备两个条件 属性的写入和读取必须可以被拦截&#xff08;被vue管理&#xff09;属性必须在回调函数或watch函数中被读取&#xff0c;这样才能记录属性之后被写入的时候应该调…

在Excel中将一列分为多列的三种方法,总有一种适合你

在处理数据和电子表格时,可读性和结构非常重要。它使数据更容易浏览和使用。提高数据可读性的最佳方法之一是将数据分割成块,这样更容易访问正确的信息。 当从头开始输入数据时,可以确保我们对数据的结构更具可读性。但是,有时你需要使用其他人创建的数据。如果数据量很大…

Fooocus 使用笔记

目录 换装&#xff0c;换脸&#xff0c;修复畸形 比较和使用教程&#xff1a; 安装教程&#xff1a; github地址&#xff1a; 换装&#xff0c;换脸&#xff0c;修复畸形 &#x1f525;迄今最全&#xff01;Fooocus AI绘图 详细教程 AI换装 AI换脸 AI修复畸形 - 西瓜视频 …

【机器学习】scikit-learn机器学习中随机数种子的应用与重现

随机数种子是为了能重现某一次实验生成的随机数而设立的&#xff0c;相同的随机数种子下&#xff0c;生成的随机数序列一样 一、随机数种子基础应用 在python中简单运用随机数种子 import random random.seed(1) a random.sample(range(0,100),10) random.seed(2) b random.…

如何通过内网穿透实现公网访问Portainer管理监控Docker容器

文章目录 前言1. 部署Portainer2. 本地访问Portainer3. Linux 安装cpolar4. 配置Portainer 公网访问地址5. 公网远程访问Portainer6. 固定Portainer公网地址 正文开始前给大家推荐个网站&#xff0c;前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风…