网站开发语言排行wordpress 小工具制作
网站开发语言排行,wordpress 小工具制作,wordpress改不了语言,西宁服务Python 实现读取pdf文件简单示例。 安装命令
需要安装操作pdf的三方类库#xff0c;命令如下#xff1a;
pip install pdfminer3K
安装过程如下#xff1a; 引入类库
需要引入很多的类库。
示例如下#xff1a;
import sys
import importlib
importlib.reload(sys)fr… Python 实现读取pdf文件简单示例。 安装命令
需要安装操作pdf的三方类库命令如下
pip install pdfminer3K
安装过程如下 引入类库
需要引入很多的类库。
示例如下
import sys
import importlib
importlib.reload(sys)from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed 读取pdf实现
实现步骤为先通过二进制方式打开测试pdf文档创建pdf文档解析测试文档内容
最后读取文件内容保存到另一个文件中。
示例如下
import sys
import importlibimportlib.reload(sys)from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
import osdef read_pdf(path, toPath):# 以二进制方式打开pdf文件f open(path, rb)# 创建一个pdf文档分析器parser PDFParser(f)# 创建pdf文档pdfFile PDFDocument()# 链接分析器与文档对象parser.set_document(pdfFile)pdfFile.set_parser(parser)# 提供初始化密码pdfFile.initialize()# 检测文档是否提供txt转换if not pdfFile.is_extractable:raise PDFTextExtractionNotAllowedelse:# 解析数据# 数据管理器manager PDFResourceManager()# 创建一个PDF设备对象laparams LAParams()device PDFPageAggregator(manager, laparamslaparams)# 解释器对象interpreter PDFPageInterpreter(manager, device)for page in pdfFile.get_pages():interpreter.process_page(page)layout device.get_result()for x in layout:if isinstance(x, LTTextBoxHorizontal):with open(toPath, a, encodingutf-8) as f:print(x.get_text())f.write(x.get_text() \n)path os.path.join(os.getcwd(), test_1.pdf)
toPath os.path.join(os.getcwd(), test_2.txt)
read_pdf(path, toPath)
注意无法读取中文貌似需要加载中文字体。还有就是在写入pdf文件格式不对无法打开暂时没找到原因。 总结
本篇只是使用Python 实现读取pdf文件简单示例因为时间关系没有做深入的扩展等之后有时间再做补充。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/88688.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!