我把pdfplumber整成了可以拖拉拽的web应用

pdfplumber是专门用来处理PDF的第三方库,完全开源和免费,它最核心的功能是提取PDF的文本和表格,支持保留段落、换行、空格的原始格式,不会像某些库那样把不同区域的文本混在一起,是我体验下来最好用的PDF处理库。

pdfplumber可以对PDF进行基本查询和编辑。

  • page_number:页码
  • width/height:页面尺寸
  • rotation:旋转角度
  • bbox:页面边界框
  • crop(bbox):裁剪指定区域
  • rotate(angle):旋转页面
  • to_image():生成可视化页面

同时支持提取PDF文本和表格,这是pdfplumber的强项。

  • extract_text():保留布局的整页文本提取
  • extract_text_simple():忽略布局的简单文本提取
  • get_textbox(bbox):提取指定区域文本
  • extract_table(table_settings={}):提取页面第一个表格
  • extract_tables(table_settings={}):提取页面所有表格
  • find_tables():查找表格边界框
  • extract_images():提取页面所有图像

pdfplumber使用也很简单,比如说提取PDF页面。

import pdfplumber with pdfplumber.open("path/to/file.pdf") as pdf: first_page = pdf.pages[0] print(first_page.chars[0])

虽然在Python上使用pdfplumber提取PDF文本表格并不难,但这仅限于懂Python的同学,如果你不会Python,那也是没办法用pdfplumber操作PDF,只能求助于付费软件。

我突发奇想用pdfplumber搭建了个PDF文本表格提取应用,可以实现拖拉拽实现操作,不需要任何的代码。

这个应用是基于streamlit开发的,在浏览器上打开使用,它支持的PDF操作包括:

1、支持拖拽导入PDF,并查看PDF基本信息

2、支持提取PDF文本、表格

3、支持导出Markdown、Word、TxT、Json格式文件

4、支持拉取所有表格,并导出Excel格式文件

5、支持将PDF转换为Word文件,并保持样式

6、支持DeepSeek生成PDF文本摘要

下面以一份PDF行业报告为例,咱们用这个工具去提取文本和表格,速度非常快。

首先将PDF拖到打开栏里,点击处理PDF。

它就会将完整的文本提取出来,并显示PDF的基本信息。

点击表格功能,这个PDF所有的表格都会单独呈现出来,并可以下载Excel文件。

下载的Excel包含所有PDF表格,且高度还原格式。

你可以将提取的文本导出为Word、Markdown、txt、Json格式文件。

导出的Markdown文件如下:

还可以直接将PDF原封不动转换为Word文件。

我还在这个应用里植入了DeepSeek总结功能可以提炼PDF摘要。

以上就是这个web应用的功能,应该是比较适合日常办公处理PDF。

如何安装这个应用呢?

因为它是基于Python streamlit开发的,所以会有一些依赖库,在使用前需要安装到本地电脑,包括:

# Core PDF processing pdfplumber==0.11.0 PyPDF2==3.0.1 pdf2docx==0.5.8 # AI API integration requests==2.31.0 openai==1.12.0 # Document generation python-docx==1.1.0 markdown==3.5.2 # Web framework streamlit==1.31.0 streamlit-extras==0.3.6 # Data processing pandas==2.2.0 numpy==1.26.4 openpyxl==3.1.2 # Async processing aiohttp==3.9.3 # Utilities python-dotenv==1.0.1 Pillow==10.2.0 tqdm==4.66.1 # Logging loguru==0.7.2

当然这里默认你的电脑上已经安装好Python,并配置好以上依赖,然后你就可以通过以下命令进入该应用。

streamlit run app.py

或者直接点击文件夹里的run批处理文件,就能直接启动应用。

我写了详细的readme,你可以根据指引来安装使用。

想要下载可以去我的Github仓库,地址如下:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1199661.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2026五大成都优质装修机构盘点

2026五大成都优质装修机构盘点一、成都装修市场现状剖析 随着成都城市建设的飞速发展以及人们生活水平的显著提高,装修行业在成都呈现出蓬勃发展的态势。大街小巷随处可见装修公司的招牌,各类装修相关信息丰富多样,…

双击轻捏,手写笔交互丝滑切换

在移动办公与数字创作日益普及的今天,手写笔已成为提升平板、手机等设备生产力的关键工具。然而,传统手写场景中,用户常因操作复杂(如频繁切换工具)、跨设备体验割裂等问题导致效率低下,而开发者则面临手势识别算…

基于Python + Django个性化餐饮管理系统(源码+数据库+文档)

个性化餐饮管理 目录 基于PythonDjango个性化餐饮管理系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于PythonDjango个性化餐饮管理系统 一、前言 博主介绍&…

用JDK1.7快速构建原型:Web服务示例

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 生成一个基于JDK1.7的轻量级Web服务原型,要求:1. 使用内置HttpServer实现REST接口;2. 包含简单的数据持久化功能;3. 支持JSON格式请…

通义千问模型部署新玩法:语音输入生成萌宠图片教程

通义千问模型部署新玩法:语音输入生成萌宠图片教程 你有没有想过,只要说一句话,就能生成一张可爱的动物图片?尤其对于孩子来说,能把自己想象中的小动物“变”出来,是一件多么神奇又有趣的事。现在&#xf…

2026现代装修全案公司揭晓!谁是你的梦中情“装”?

2026现代装修全案公司揭晓!谁是你的梦中情“装”?一.装修新潮流,全案公司为何火爆? 你是否在装修时面对琳琅满目的材料、风格各异的设计,以及繁琐的施工流程而感到焦头烂额?如今,越来越多的人将目光投向了现代装…

SQL和Python 哪个更容易自学?

SQL和Python不是一个物种,Python肯定更难学习。如果你从事数据工作,我建议先学SQL、有余力再学Python。因为SQL不光容易学,而且前期的投入产出比更大。 SQL是数据查询语言,场景限于数据查询和数据库的管理,对大部分数据…

了解Agent Skills,这一篇就够了

一、Skills 简介 Skill 是一种模块化、可复用的能力包,用于将特定任务的专业知识、工作流程和可执行逻辑进行结构化封装,使 AI 在执行该类任务时具备稳定、一致且可持续演进的行为能力。 Agent 在执行任务时,会自主决策,会根据P…

1小时搞定:用PLAYWRIGHT快速验证产品创意

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个快速验证产品创意的PLAYWRIGHT原型,功能包括:1.自动采集竞品关键页面截图 2.提取核心功能点对比 3.生成可视化对比报告 4.模拟用户旅程。要求支持配…

林业资源管理|基于java + vue林业资源管理系统(源码+数据库+文档)

林业资源管理 目录 基于springboot vue林业资源管理系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue林业资源管理系统 一、前言 博主介绍&…

基于Python + Django图书管理系统(源码+数据库+文档)

图书管理 目录 基于PythonDjango图书管理系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于PythonDjango图书管理系统 一、前言 博主介绍:✌️大厂码农…

情绪宣泄平台系统|基于java+ vue情绪宣泄平台系统(源码+数据库+文档)

情绪宣泄平台 目录 基于springboot vue情绪宣泄平台系统 一、前言 二、系统功能演示 三、技术选型 四、其他项目参考 五、代码参考 六、测试参考 七、最新计算机毕设选题推荐 八、源码获取: 基于springboot vue情绪宣泄平台系统 一、前言 博主介绍&…

nTopology平台自动生成适配不同热源分布的流道拓扑。

🎓作者简介:科技自媒体优质创作者 🌐个人主页:莱歌数字-CSDN博客 💌公众号:莱歌数字(B站同名) 📱个人微信:yanshanYH 211、985硕士,从业16年 从…

CentOS包管理器(dnf)

dnf:Dandified Yum、改进的yum,是RHEL/CentOS/Fedora/Rocky Linux/AlmaLinux 等系统的现代包管理器(在Centos7及更高版本中,yum已经指向dnf);配置仓库配置目录:/etc/yum.repos.d/ 常用命令不提示安装包:dnf -…

为什么我不愿意用Anaconda了?

我记得从我开始读本科接触Python开始,就一直被各种博客灌输Anaconda省事、方便的思想,所以每次Anaconda更新我都会第一时间去更新,但近几年我发现网上对Anaconda的意见增多,不少小伙伴开始自己配置Python了,或者改用mi…

Docker Swarm入门:5分钟搭建你的第一个集群

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 开发一个交互式Docker Swarm学习教程,包含以下内容:1. 单机模拟多节点集群;2. 基础服务部署演示;3. 常用命令练习;4. 简…

围绕工业制造、科技创新、医疗健康、应急管理、气象服务、现代农业、交通运输、金融服务、文化旅游、城市治理、商贸流通、绿色低碳等重点行业领域,现开展关键技术攻关与应用场景征集工作

为聚焦广东省战略性产业集群与重点产业链发展需求,围绕工业制造、科技创新、医疗健康、应急管理、气象服务、现代农业、交通运输、金融服务、文化旅游、城市治理、商贸流通、绿色低碳等重点行业领域,现开展关键技术攻关与应用场景征集工作。此举旨在推动…

小白必看:免费域名申请避坑指南

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 创建一个交互式新手向导:1.解释域名/DNS等基础概念 2.分步动画演示注册流程 3.高亮显示关键表单字段 4.内置模拟练习环境 5.提供术语词典。使用React开发响应式界面&am…

2026年腰椎间盘突出理疗方法厂家权威推荐榜:附近的中医/颈椎曲度变直/颈椎紊乱/颈椎间盘突出/高低肩/脊柱侧弯/选择指南

2026年01月腰椎间盘突出理疗方法评价高品牌深度解析腰椎间盘突出症(LDH)作为骨科常见的退变性疾病,其患病率在《2026-2030年中国中医骨科诊疗市场发展白皮书》中被明确提及已达18%,且呈现“年轻化、职业化”趋势—…

AI智能名片S2B2C商城小程序在微商中的应用与影响

摘要:在微商行业蓬勃发展的当下,信任关系的建立是微商发展的基石。本文深入探讨了AI智能名片S2B2C商城小程序在微商中的应用与影响。通过分析微商建立信任关系的传统路径,阐述AI智能名片S2B2C商城小程序如何融入其中,优化各环节&a…