介绍
pdf2word是一个基于Python的命令行工具,可以将PDF文件批量转换为Word文档。该项目利用了Python的强大功能和多个第三方库,如pdfminer和python-docx,以实现高效、准确的转换。
项目功能:
批量转换:用户可以指定一个文件夹,pdf2word会自动查找该文件夹中的所有PDF文件,并将它们转换为Word文档。
保持格式:pdf2word会尽可能保留原文档的格式,包括字体、大小、颜色等。
图片提取:如果PDF文件中包含图片,pdf2word会自动将图片提取出来,并保存在Word文档中。
表格转换:pdf2word会尽可能准确地转换PDF中的表格,保持表格的行列结构。
自定义输出:用户可以自定义输出文件夹和文件名,以便更好地组织和管理转换后的Word文档。
依赖包
fire==0.4.0
fonttools==4.28.3
lxml==4.7.1
numpy==1.21.4
opencv-python==4.5.4.60
pdf2docx==0.5.2
PyMuPDF==1.19.3
python-docx==0.8.11
six==1.16.0
termcolor==1.1.0
源码
import os
import sys
import logging
from configparser import ConfigParser
from concurrent.futures import ProcessPoolExecutorfro