使用Gradio创建一个提取pdf、excel中表格数据的demo
最近需要对pdf、excel文件中的表格进行提取,用于一些分析,所以使用python完成了一个小工具,可以处理上传的pdf、excel文件,将其中所有表格提取出后存入数组输出:
import gradio as gr
import pdfplumber
import os
import openpyxldef process_pdf(file):file_extension = os.path.splitext(file.orig_name)[-1]tables = []if file_extension == ".pdf":with pdfplumber.open(file.orig_name) as pdf:for page in pdf.pages:table = page.extract_tables()tables.append(table)elif file_extension == '.xlsx':excel = openpyxl.load_workbook(file.orig_name)for name in excel.sheetnames:sheet = excel[name]max_row = sheet.max_rowmax_column = sheet.max_columnfor row in sheet.iter_rows(values_only=True):row_data = []for cell_value in row:row_data.append(cell_value) # 将单元格值添加到当前行的数据列表tables.append(row_data) # 将当前行的数据列表添加到主数组return tablesiface = gr.Interface(fn=process_pdf,inputs=gr.inputs.File(type="file"),outputs="text",title="上传 PDF/Excel 文件",description="提取上传文件中的所有表格,并以数组形式输出",
)iface.launch()
其中使用到了几个库:
- 提取 pdf 使用到的:pdfplumber
- 提取 excel 使用到的:openpyxl
两个库的使用方法不难,文档可以直接在github上找到