遂昌赶街网站天津建设银行公积金缴费网站
news/
2025/9/23 19:58:39/
文章来源:
遂昌赶街网站,天津建设银行公积金缴费网站,公司备案证查询网站查询,博采网络科技因工作中的某些奇葩要求#xff0c;需要将PDF文件的每页内容转存成按顺序编号的图片。用第三方软件或者在线转换也可以#xff0c;但批量操作还是Python方便#xff0c;所谓搞定办公自动化#xff0c;Python出山#xff0c;一统天下#xff1b;Python出征#xff0c;寸草…因工作中的某些奇葩要求需要将PDF文件的每页内容转存成按顺序编号的图片。用第三方软件或者在线转换也可以但批量操作还是Python方便所谓搞定办公自动化Python出山一统天下Python出征寸草不生~ O(∩_∩)O
不过这个需要用到PyMuPDF库电脑运行cmd输入“pip install PyMuPDF”安装即可。安装后通过import fitz导入模块。等等为什么安装的是PyMuPDF导入的是fitz俺PyMuPDF就是这么任性怎么的爱用不用哈哈开个玩笑。其实是因为PyMuPDF曾用名fitz-python所以只是fitz换了个马甲而已呵呵。
这里先导入fitz库用于将PDF文件的页面提取成像素信息图片。再导入glob库用于获取后缀为.pdf的文件的文件名。os库可新建文件夹。
#批量将PDF文件转为图片
import fitz
import glob
import osimage_path 图片\\ #存放图片的文件夹
PDFfiles glob.glob(PDF文件\\*.pdf) #获取所有pdf文件的文件名
for PDFfile in PDFfiles: #遍历所有PDF文件PDFdoc fitz.open(PDFfile) #读取PDF文件folder_name PDFfile.split(\\)[-1].split(.)[0] #按源文件名新建文件夹for pg in range(PDFdoc.pageCount): #根据PDF的页数,按页提取图片 page PDFdoc[pg]#增强图片分辨率zoom_x 3 #水平方向zoom_y 3 #垂直方向mat fitz.Matrix(zoom_x, zoom_y) pix page.getPixmap(matrixmat) #按原PDF名称新建文件夹并按顺序保存图片if not os.path.exists(image_pathfolder_name):#判断文件夹是否已存在os.makedirs(image_pathfolder_name)#不存在则新建存在就跳过这行pix.writeImage(image_pathfolder_name \\{}.png.format(str(pg1))) #按PDF中的页面顺序命名并保存图片以上我们先将所有待处理的PDF文件放入“PDF文件夹”然后通过glob.glob(PDF文件\\*.pdf)搜索并抓取所有以.pdf为后缀的文件并存入变量PDFfiles中。结果如下所示
PDFfiles[‘PDF文件\6S稽查问题.pdf’, ‘PDF文件\收货记录.pdf’]
然后遍历PDFfiles中的所有PDF文件使用fitz.open()读取。fitz.open()用于创建PDF文件中页面的像素映射(pixel maps)即用像素来表示页面信息。然后按PDF文件名命名一个新的文件夹以便储存图片。比如给“收货记录.pdf”文件建一个名字为“收货记录”的文件夹专门储存关于它的页面的图片。随后用for循环根据PDF的页数按页提取图片。将每页的信息存入page变量它的type 是fitz.fitz.Page即一页像素文件。为了让图片看起来更清晰需要增强图片的分辨率设定图片水平及垂直方向的增强倍数传入Matrix。Matrix用于提升即将保存的图片的分辨率分辨率的提升倍数为zoom_x与zoom_y的乘积。倍数越大图片越清晰当然占用空间也越大。这个参数可根据实际要求调整。然后将Matrix存入mat传入getPixmap()。getPixmap()用于控制图片分辨率、色域比如生成灰度图像或带有减色方案的图像、透明度、旋转、镜像、移位、剪切等。由于其它都不需要专门设定所以只增强其分辨率。
一页图片处理好后就需要保存图片了。先通过os.path.exists判断一下需要的文件夹是否存在若不存在就通过os.makedirs创建。然后用pix.writeImage按页码编号写入并保存图片。
准备
pip install fitz
代码
#!/usr/bin/env python
# coding: utf-8# 因工作中的某些奇葩要求需要将PDF文件的每页内容转存成按顺序编号的图片。用第三方软件或者在线转换也可以但批量操作还是Python方便所谓搞定办公自动化Python出山一统天下Python出征寸草不生~ O(∩_∩)O# 不过这个需要用到PyMuPDF库电脑运行cmd输入“pip install PyMuPDF”安装即可。安装后通过import fitz导入模块。等等为什么安装的是PyMuPDF导入的是fitz俺PyMuPDF就是这么任性怎么的爱用不用哈哈开个玩笑。其实是因为PyMuPDF曾用名fitz-python所以只是fitz换了个马甲而已呵呵。# 这里先导入fitz库用于将PDF文件的页面提取成像素信息图片。再导入glob库用于获取后缀为.pdf的文件的文件名。os库可新建文件夹。# In[12]:#批量将PDF文件转为图片
import fitz
import glob
import osimage_path 图片\\ #存放图片的文件夹
PDFfiles glob.glob(PDF文件\\*.pdf) #获取所有pdf文件的文件名
for PDFfile in PDFfiles: #遍历所有PDF文件PDFdoc fitz.open(PDFfile) #读取PDF文件folder_name PDFfile.split(\\)[-1].split(.)[0] #按源文件名新建文件夹for pg in range(PDFdoc.pageCount): #根据PDF的页数,按页提取图片 page PDFdoc[pg]#增强图片分辨率zoom_x 3 #水平方向zoom_y 3 #垂直方向mat fitz.Matrix(zoom_x, zoom_y) pix page.getPixmap(matrixmat) #按原PDF名称新建文件夹并按顺序保存图片if not os.path.exists(image_pathfolder_name):#判断文件夹是否已存在os.makedirs(image_pathfolder_name)#不存在则新建存在就跳过这行pix.writeImage(image_pathfolder_name \\{}.png.format(str(pg1))) #按PDF中的页面顺序命名并保存图片# 以上我们先将所有待处理的PDF文件放入“PDF文件夹”然后通过glob.glob(PDF文件\\*.pdf)搜索并抓取所有以.pdf为后缀的文件并存入变量PDFfiles中。结果如下所示# In[2]:PDFfiles# 然后遍历PDFfiles中的所有PDF文件使用fitz.open()读取。fitz.open()用于创建PDF文件中页面的像素映射(pixel maps)即用像素来表示页面信息。然后按PDF文件名命名一个新的文件夹以便储存图片。比如给“收货记录.pdf”文件建一个名字为“收货记录”的文件夹专门储存关于它的页面的图片。随后用for循环根据PDF的页数按页提取图片。将每页的信息存入page变量它的type 是fitz.fitz.Page即一页像素文件。为了让图片看起来更清晰需要增强图片的分辨率设定图片水平及垂直方向的增强倍数传入Matrix。Matrix用于提升即将保存的图片的分辨率分辨率的提升倍数为zoom_x与zoom_y的乘积。倍数越大图片越清晰当然占用空间也越大。这个参数可根据实际要求调整。然后将Matrix存入mat传入getPixmap()。getPixmap()用于控制图片分辨率、色域比如生成灰度图像或带有减色方案的图像、透明度、旋转、镜像、移位、剪切等。由于其它都不需要专门设定所以只增强其分辨率。# 一页图片处理好后就需要保存图片了。先通过os.path.exists判断一下需要的文件夹是否存在若不存在就通过os.makedirs创建。然后用pix.writeImage按页码编号写入并保存图片。
# 
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/913716.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!