使用gradio创建一个提取pdf、excel中表格数据的demo

news/2025/11/1 3:31:27/文章来源:https://blog.csdn.net/qq_51574759/article/details/132667595

使用Gradio创建一个提取pdf、excel中表格数据的demo

最近需要对pdf、excel文件中的表格进行提取，用于一些分析，所以使用python完成了一个小工具，可以处理上传的pdf、excel文件，将其中所有表格提取出后存入数组输出：

import gradio as gr
import pdfplumber
import os
import openpyxldef process_pdf(file):file_extension = os.path.splitext(file.orig_name)[-1]tables = []if file_extension == ".pdf":with pdfplumber.open(file.orig_name) as pdf:for page in pdf.pages:table = page.extract_tables()tables.append(table)elif file_extension == '.xlsx':excel = openpyxl.load_workbook(file.orig_name)for name in excel.sheetnames:sheet = excel[name]max_row = sheet.max_rowmax_column = sheet.max_columnfor row in sheet.iter_rows(values_only=True):row_data = []for cell_value in row:row_data.append(cell_value)  # 将单元格值添加到当前行的数据列表tables.append(row_data)  # 将当前行的数据列表添加到主数组return tablesiface = gr.Interface(fn=process_pdf,inputs=gr.inputs.File(type="file"),outputs="text",title="上传 PDF/Excel 文件",description="提取上传文件中的所有表格，并以数组形式输出",
)iface.launch()

其中使用到了几个库：

提取 pdf 使用到的：pdfplumber
提取 excel 使用到的：openpyxl

两个库的使用方法不难，文档可以直接在github上找到

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/67622.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

uni-app 中 swiper 轮播图高度自适应

uni-app 中 swiper 轮播图高度自适应

方法一 1、首先 swiper 标签的宽度是 width: 100% 2、swiper 标签存在默认高度是 height: 150px ；高度无法实现由内容撑开，在默认情况下，图片的高度显示总是 150px swiper 宽度 / swiper 高度原图宽度 / 原图高度 swiper 高度 swiper …

阅读更多...

Ansible之变量

Ansible之变量

一）Ansible变量介绍我们在PlayBook⼀节中，将PlayBook类⽐成了Linux中的shell。那么它作为⼀⻔Ansible特殊的语⾔，肯定要涉及到变量定义、控制结构的使⽤等特性。在这⼀节中主要讨论变量的定义和使⽤二）变量命名规则变量的…

阅读更多...

机器学习-波士顿房价预测

机器学习-波士顿房价预测

目录一.数据处理读入数据数据形状变换数据集划分数据归一化处理将上面封装成load data函数二. 模型设计完整封装运行代码： 根据loss值进行梯度计算控制部分变量的变化图像： 一.数据处理读入数据 # 导入需要用到的package import numpy as np…

阅读更多...

51单片机热水器温度控制系统仿真设计( proteus仿真+程序+原理图+报告+讲解视频）

51单片机热水器温度控制系统仿真设计( proteus仿真+程序+原理图+报告+讲解视频）

51单片机热水器温度控制系统仿真设计 1.主要功能：2.仿真3. 程序代码4. 原理图5. 设计报告6. 设计资料内容清单 &&下载链接 51单片机热水器温度控制系统仿真设计( proteus仿真程序原理图报告讲解视频） 仿真图proteus7.8及以上程序编译器&#x…

阅读更多...

如何快速生成一个H5滑动的卡片（单页和分页都有）

如何快速生成一个H5滑动的卡片（单页和分页都有）

单页 <ul class"combo"><li v-for"(item, index) in arr" :key"index"><div class"combo-name">{{ item.A }}</div><div class"combo-price">{{ item.B }}</div><div class"co…

阅读更多...

常见的几种排序算法

常见的几种排序算法

目录一、插入排序 1、直接插入排序 1.1、排序方法 1.2、图解分析 1.3、代码实现 2、希尔排序 2.1、排序方法 2.2、图解分析 2.3、代码实现二、选择排序 1、直接选择排序 1.1、排序方法 1.2、图解分析 1.3、代码实现 2、堆排序 2.1、排序方法 2.2、图解分析 …

阅读更多...

按键精灵调节界面不显示插件

按键精灵调节界面不显示插件

就像我这样的---这是正常的现象但是假如你不小心把这个给岔了，那么点击了启动它就是这样的这个东西的唯一解决措施就是电脑重启，没得办法，天地万物都有bug这个没得办法

阅读更多...

AUTOSAR规范与ECU软件开发(实践篇）9.1 AUTOSAR与功能安全

AUTOSAR规范与ECU软件开发(实践篇）9.1 AUTOSAR与功能安全

目录 1、前言 2、AUTOSAR对ISO 26262中支持部分的要求（1）概述（2）ISO 26262对架构设计的要求 1、前言作为当前汽车领域最流行的话题之一， A

阅读更多...

Vue——vue3中的ref和reactive数据理解以及父子组件之间props传递的数据

Vue——vue3中的ref和reactive数据理解以及父子组件之间props传递的数据

ref()函数这是一个用来接受一个内部值，返回一个响应式的、可更改的 ref 对象，此对象只有一个指向其内部值的属性 .value。作用：创建一个响应式变量，使得某个变量在发生改变时可以同步发生在页面上。模板语句中使用这个变量时…

阅读更多...

详细介绍c++中的类

详细介绍c++中的类

C 中的类是面向对象编程的基本概念，它指的是一种能够封装数据和方法的用户定义数据类型。类是程序中一个重要的概念，它允许程序员通过定义类来实现代码复用、模块化和继承等特性。 C 中的类由以下部分组成： Data members：成员变量…

阅读更多...

使用Puppeteer进行游戏数据可视化

使用Puppeteer进行游戏数据可视化

导语 Puppeteer是一个基于Node.js的库，可以用来控制Chrome或Chromium浏览器，实现网页操作、截图、测试、爬虫等功能。本文将介绍如何使用Puppeteer进行游戏数据的爬取和可视化，以《英雄联盟》为例。概述《英雄联盟》是一款由Riot Games开…

阅读更多...

docker 安装rabbitmq

docker 安装rabbitmq

前提：安装好docker docker安装_Steven-Russell的博客-CSDN博客 centos7安装docker_centos7 docker 安装软件_Steven-Russell的博客-CSDN博客 1、启动docker systemctl start docker 2、下载镜像 // 可以先search查询一下可用镜像，此处直接下载最新版本…

阅读更多...

golang通过gorm操作sqlite设置主键自增

golang通过gorm操作sqlite设置主键自增

在 Golang 中使用 GORM 操作 SQLite 数据库时，可以通过以下步骤设置主键自增： 首先，确保已经安装了 GORM 和 SQLite 的驱动程序。你可以使用以下命令安装它们： go get -u gorm.io/gorm go get -u gorm.io/driver/sqlite导入所…

阅读更多...

JavaScript代码中字符串如何换行？

JavaScript代码中字符串如何换行？

在工作中，代码提交之前可能会有一些语法检查的限制，限制我们的单行代码长度。对于一些逻辑代码，有多种换行方式。这里主要记录一下对于字符串过长情况的处理方式。对于字符串，除了使用进行字符串拼接之外，也可以…

阅读更多...

在公网上使用SSH远程连接安卓手机Termux：将Android手机变身为远程服务器

在公网上使用SSH远程连接安卓手机Termux：将Android手机变身为远程服务器

文章目录前言1.安装ssh2.安装cpolar内网穿透3.远程ssh连接配置4.公网远程连接5.固定远程连接地址前言使用安卓机跑东西的时候，屏幕太小，有时候操作不习惯。不过我们可以开启ssh，使用电脑PC端SSH远程连接手机termux。本次教程主要实现在…

阅读更多...

猫头虎博主赠书二期：《Go黑帽子渗透测试编程之道（安全技术经典译丛）》

猫头虎博主赠书二期：《Go黑帽子渗透测试编程之道（安全技术经典译丛）》

🌷🍁 博主猫头虎带您 Go to New World.✨🍁 🦄 博客首页——猫头虎的博客🎐 🐳《面试题大全专栏》文章图文并茂🦕生动形象🦖简单易学！欢迎大家来踩踩~🌺 &a…

阅读更多...

算法通关村第11关【白银】| 位运算高频算法题

算法通关村第11关【白银】| 位运算高频算法题

一、移位的妙用 1.位1的个数思路： 利用一个数和1与操作，结果就是最低位的特点，每次右移都能知道一位是不是1 public class Solution {// you need to treat n as an unsigned valuepublic int hammingWeight(int n) {int count 0;for(in…

阅读更多...

【spark】java类在spark中的传递，scala object在spark中的传递

【spark】java类在spark中的传递，scala object在spark中的传递

记录一个比较典型的问题，先讲一下背景，有这么一个用java写的类 public class JavaClass0 implements Serializable {private static String name;public static JavaClass0 getName(String str) {if (name null) {namestr;}return name;}... }然后在sp…

阅读更多...

Oracle数据库尚硅谷学习笔记

Oracle数据库尚硅谷学习笔记

文章目录 Oracle数据库体系结构简介补充SQL初步导入sql文件别名连接符distinct去重的坑过滤和排序数据日期格式比较运算其它比较运算符逻辑运算优先级排序单行函数SQL中不同类型的函数单行函数字符数值日期转换通用使用条件表达式嵌套查询多表查询等值连接非等值连接左外连…

阅读更多...

解决微信小程序recycle-view使用百分比单位控制宽高时出现的内容溢出问题

解决微信小程序recycle-view使用百分比单位控制宽高时出现的内容溢出问题

recycle-view是微信小程序官方推出的一个经过优化的长列表组件，但是在使用百分比单位控制高宽时有个内容溢出问题，虽然它提供了height和width的参数可以设置宽高，但每次写列表都需要去js里获取宽高并设置是较为麻烦的，所以现在来着…

阅读更多...

最新文章