C# 提取PDF表单数据

目录

使用工具

C# 提取多个PDF表单域的数据

C# 提取特定PDF表单域的数据


PDF表单是一种常见的数据收集工具,广泛应用于调查问卷、业务合同等场景。凭借出色的跨平台兼容性和标准化特点,PDF表单在各行各业中得到了广泛应用。然而,当需要整合、分析或导入大量已填写的表单数据时,传统的手动处理方式不仅耗时,而且容易出错。因此,掌握自动提取PDF表单数据的方法,不仅能大幅提高工作效率,还能确保数据处理的准确性。本文将探讨如何使用C# 实现自动化PDF表单数据提取流程。

  • 使用工具
  • C# 提取多个PDF表单域的数据
  • C# 提取特定PDF表单域的数据

使用工具

要使用C# 提取PDF表单的数据,需要用到合适的PDF文档处理库。本文所使用的是Spire.PDF for .NET库。该库主要用于在 .NET 应用程序中创建、读取、编辑、转换 和打印PDF 文档。

安装 Spire.PDF for .NET

你可以在 NuGet 包管理器中运行以下命令安装 Spire.PDF for .NET:

PM> Install-Package Spire.PDF

如果你已经安装了该库并希望升级到最新版本,可以使用以下命令:

PM> Update-Package Spire.PDF

C# 提取多个PDF表单域的数据

PDF 表单可能包含多种类型的域,例如文本框、列表框、下拉框、单选按钮和复选框。每种域类型需要采用不同的方法来提取其数据。以下是提取这些类型的域的数据时所使用的关键属性:

  • 文本框(Text Boxes
    通过 PdfTextBoxFieldWidget 对象的 Name 和 Text 属性,获取文本框的名称及其对应的值。
  • 列表框(List Boxes
    通过 PdfListBoxFieldWidget 对象的 Name、Values 和 SelectedValue 属性,提取列表框的名称、所有选项及选定的选项。
  • 下拉框(Combo Boxes
    通过 PdfComboBoxFieldWidget 对象的 Name、Values 和 SelectedValue 属性,获取下拉框的名称、所有选项及选定的选项。
  • 单选按钮(Radio Buttons
    通过 PdfRadioButtonListFieldWidget 对象的 Name 和 SelectedValue 属性,获取单选按钮的名称和选定的值。
  • 复选框(Checkboxes
    通过 PdfCheckBoxFieldWidget 对象的 Name 和 Checked 属性,提取复选框的名称及其状态(是否被选中)。

以下代码展示了如何使用 C# 从多个 PDF 表单域中提取数据:

using Spire.Pdf;
using Spire.Pdf.Fields;
using Spire.Pdf.Widget;
using System.Collections.Generic;
using System.IO;namespace ExtractPdfFormData
{internal class Program{static void Main(string[] args){// 初始化 PdfDocument 类实例,用于加载和处理 PDF 文件using (PdfDocument doc = new PdfDocument()){// 加载包含表单域的 PDF 文件doc.LoadFromFile("表单.pdf");// 创建列表存储提取的域名称及其值List<string> content = new List<string>();// 获取 PDF 文档的表单对象PdfFormWidget formWidget = doc.Form as PdfFormWidget;// 检查表单对象中是否包含表单域if (formWidget?.FieldsWidget.Count > 0){// 遍历文档中的所有表单域for (int i = 0; i < formWidget.FieldsWidget.List.Count; i++){// 获取当前表单域PdfField field = formWidget.FieldsWidget[i];// 如果当前表单域为空,跳过该域if (field == null) continue;// 提取当前表单域的内容(名称和值)List<string> currentFieldContent = ExtractFieldContent(field);// 如果提取到域内容,则将其添加到 content 列表中if (currentFieldContent.Count > 0){content.AddRange(currentFieldContent);// 如果不是最后一个表单域,添加一个空行用于分隔不同域的内容if (i < formWidget.FieldsWidget.List.Count - 1){content.Add(""); // 添加空行分隔不同域的内容}}}}// 将提取的内容逐行写入文本文件File.WriteAllLines("提取域数据.txt", content);}}/// <summary>/// 提取单个 PDF 表单域的内容(域名和域值)/// 根据不同的表单域类型(文本框、列表框、下拉框、单选按钮、复选框)提取相应的值/// </summary>/// <param name="field">当前的 PDF 表单域对象</param>/// <returns>包含域内容的字符串列表</returns>private static List<string> ExtractFieldContent(PdfField field){// 初始化列表来存储当前表单域的内容List<string> fieldContent = new List<string>();// 检查该域是否为文本框if (field is PdfTextBoxFieldWidget textBoxField){fieldContent.Add($"文本框名称:{textBoxField.Name}");fieldContent.Add($"文本框值:{textBoxField.Text}");}// 检查该域是否为列表框else if (field is PdfListBoxWidgetFieldWidget listBoxField){fieldContent.Add($"列表框名称:{listBoxField.Name}");fieldContent.Add("列表框选项:");// 遍历并提取列表框中的所有选项foreach (PdfListWidgetItem item in listBoxField.Values){fieldContent.Add($"{item.Value}");}fieldContent.Add($"列表框选中项:{listBoxField.SelectedValue}");}// 检查该域是否为下拉框else if (field is PdfComboBoxWidgetFieldWidget comboBoxField){fieldContent.Add($"下拉框名称:{comboBoxField.Name}");fieldContent.Add("下拉框选项:");// 遍历并提取下拉框中的所有选项foreach (PdfListWidgetItem item in comboBoxField.Values){fieldContent.Add($"{item.Value}");}fieldContent.Add($"下拉框选中项:{comboBoxField.SelectedValue}");}// 检查该域是否为单选按钮else if (field is PdfRadioButtonListFieldWidget radioBtnField){fieldContent.Add($"单选按钮名称:{radioBtnField.Name}");fieldContent.Add($"单选按钮选中项:{radioBtnField.SelectedValue}");}// 检查该域是否为复选框else if (field is PdfCheckBoxWidgetFieldWidget checkBoxField){fieldContent.Add($"复选框名称:{checkBoxField.Name}");fieldContent.Add($"复选框状态:{(checkBoxField.Checked ? "选中" : "未选中")}");}// 返回当前表单域的内容return fieldContent;}}
}

C# 提取特定PDF表单域的数据

如果你需要从特定的表单域中提取数据,可以通过该表单域的名称直接访问它,然后通过判断其类型对应地获取其内容。

以下代码展示了如何使用C# 从名为 “国家” 的PDF表单域中提取数据:

using Spire.Pdf;
using Spire.Pdf.Fields;
using Spire.Pdf.Widget;
using System.Collections.Generic;
using System.IO;namespace ExtractSpecificFormData
{internal class Program{static void Main(string[] args){// 初始化 PdfDocument 类实例,用于加载和处理 PDF 文件using (PdfDocument doc = new PdfDocument()){// 加载包含表单域的 PDF 文件doc.LoadFromFile("表单.pdf");// 创建列表来存储提取的表单域名称及其值List<string> content = new List<string>();// 获取 PDF 文档的表单对象PdfFormWidget formWidget = doc.Form as PdfFormWidget;// 指定域名称string fieldName = "国家";// 检查表单对象中是否包含表单域if (formWidget?.FieldsWidget.Count > 0){// 通过名称访问特定表单域PdfField specificField = formWidget.FieldsWidget[fieldName];// 确保域存在再进行处理if (specificField != null){// 提取特定表单域的内容(名称和值)List<string> specificFieldContent = ExtractFieldContent(specificField);// 如果提取到内容,则将其添加到 content 列表中if (specificFieldContent.Count > 0){content.AddRange(specificFieldContent);}}else{content.Add($"未找到域 '{fieldName}'");}}else{content.Add("PDF 表单中未找到任何域");}// 将提取的内容逐行写入文本文件File.WriteAllLines("提取特定域数据.txt", content);}}/// <summary>/// 提取单个 PDF 表单域的内容(名称和值)/// 处理不同类型的表单域,如文本框、列表框、下拉框、单选按钮和复选框/// </summary>/// <param name="field">当前 PDF 表单域对象</param>/// <returns>包含表单域内容的字符串列表</returns>private static List<string> ExtractFieldContent(PdfField field){// 初始化列表来存储当前表单域的内容List<string> fieldContent = new List<string>();// 检查该域是否为文本框if (field is PdfTextBoxFieldWidget textBoxField){// 将文本框的名称和值添加到列表中fieldContent.Add($"文本框名称:{textBoxField.Name}");fieldContent.Add($"文本框值:{textBoxField.Text}");}// 检查该域是否为列表框else if (field is PdfListBoxWidgetFieldWidget listBoxField){fieldContent.Add($"列表框名称:{listBoxField.Name}");fieldContent.Add("列表框选项:");foreach (PdfListWidgetItem item in listBoxField.Values){fieldContent.Add($"{item.Value}");}fieldContent.Add($"列表框选中项:{listBoxField.SelectedValue}");}// 检查该域是否为下拉框else if (field is PdfComboBoxWidgetFieldWidget comboBoxField){fieldContent.Add($"下拉框名称:{comboBoxField.Name}");fieldContent.Add("下拉框选项:");foreach (PdfListWidgetItem item in comboBoxField.Values){fieldContent.Add($"{item.Value}");}fieldContent.Add($"下拉框选中项:{comboBoxField.SelectedValue}");}// 检查该域是否为单选按钮else if (field is PdfRadioButtonListFieldWidget radioBtnField){fieldContent.Add($"单选按钮名称:{radioBtnField.Name}");fieldContent.Add($"单选按钮选中项:{radioBtnField.SelectedValue}");}// 检查该域是否为复选框else if (field is PdfCheckBoxWidgetFieldWidget checkBoxField){fieldContent.Add($"复选框名称:{checkBoxField.Name}");fieldContent.Add($"复选框状态:{(checkBoxField.Checked ? "选中" : "未选中")}");}// 返回当前表单域的内容列表return fieldContent;}}
}

以上就是使用C# 读取PDF表单域数据的全部内容。感谢阅读!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/68398.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

http://noi.openjudge.cn/——4.2算法之数论——2419:Coins

题目 总时间限制: 1000ms 内存限制: 131072kB 描述 Snoopy has three coins. One day he tossed them on a table then and tried to flip some of them so that they had either all heads or all tails facing up. After several attempts, he found that regardless of the…

损失函数 Loss Function

分类问题和回归问题常使用的损失函数如下&#xff1a; 分类问题 交叉熵损失函数&#xff08;Cross-Entropy Loss&#xff09;&#xff1a;用于衡量两个概率分布之间的差异&#xff0c;在多分类问题中广泛应用。 ce_loss nn.CrossEntropyLoss() 回归问题 均方误差损失函数&…

3.日常英语笔记

screening discrepancies 筛选差异 The team found some screening discrepancies in the data. 团队在数据筛选中发现了些差异。 Don’t tug at it ,or it will fall over and crush you. tug 拉&#xff0c;拽&#xff0c;拖 He tugged the door open with all his might…

解析“in the wild”——编程和生活中的俚语妙用

解析“in the wild”——编程和生活中的俚语妙用 看下面的技术文章中遇到 in the wild这个词&#xff0c;想要研究一下&#xff0c;遂产生此文。 Are there ever pointers to pointers to pointers? There is an old programming joke which says you can rate C programmers…

软件测试丨从自动化软件测试到自主测试,还差几步?

在当今万物互联、信息爆炸的时代&#xff0c;软件测试的角色显得越发重要。作为软件开发生命周期&#xff08;SDLC&#xff09;中的关键环节&#xff0c;测试不仅仅是保障软件质量的工具&#xff0c;更是推动产品迭代的助推器。随着自动化测试技术的崛起&#xff0c;测试开发变…

高阶C语言|深入理解字符串函数和内存函数

文章目录 前言1.求字符串长度1.1 字符串长度函数&#xff1a;strlen模拟实现 长度不受限制的字符串函数1.2 字符串拷贝函数&#xff1a;strcpy模拟实现 1.3 字符串连接函数&#xff1a;strcat模拟实现 1.4 字符串比较函数&#xff1a;strcmp模拟实现 长度受限制的字符串函数2.1…

Golang Ticker Reset异常的坑

前言 延迟执行的场景我们通常会使用time.NewTimer(…)来实现&#xff0c;当一些场合可能需要使用timer.Reset(…)方法修改超时时间&#xff0c;这时使用要多注意&#xff0c; 使用不当会导致Reset失败&#xff0c;或是重复执行两次的情况。 复现 下面这段代码我们是希望&…

Chameleon(变色龙) 跨平台编译C文件,并一次性生成多个平台的可执行文件

地址:https://github.com/MartinxMax/Chameleon Chameleon 跨平台编译C文件&#xff0c;并一次性生成多个平台的可执行文件。可以通过编译Chameleon自带的.C文件反向Shell生成不同平台攻击载荷。 登录 & 代理设置 按照以下步骤设置 Docker 的代理&#xff1a; 创建配置目…

DFFormer实战:使用DFFormer实现图像分类任务(二)

文章目录 训练部分导入项目使用的库设置随机因子设置全局参数图像预处理与增强读取数据设置Loss设置模型设置优化器和学习率调整策略设置混合精度&#xff0c;DP多卡&#xff0c;EMA定义训练和验证函数训练函数验证函数调用训练和验证方法 运行以及结果查看测试完整的代码 在上…

几种K8s运维管理平台对比说明

目录 深入体验**结论**对比分析表格**1. 功能对比****2. 用户界面****3. 多租户支持****4. DevOps支持** 细对比分析1. **Kuboard**2. **xkube**3. **KubeSphere**4. **Dashboard****对比总结** 深入体验 KuboardxkubeKubeSphereDashboard 结论 如果您需要一个功能全面且适合…

DeepSeek API 的获取与对话示例

代码文件下载&#xff1a;Code 在线链接&#xff1a;Kaggle | Colab 文章目录 注册并获取API环境依赖设置 API单轮对话多轮对话流式输出更换模型 注册并获取API 访问 https://platform.deepseek.com/sign_in 进行注册并登录&#xff1a; 新用户注册后将赠送 10 块钱余额&#…

Vue 3 + TypeScript 实现父子组件协同工作案例解析

引言 在现代的前端开发中&#xff0c;Vue.js 作为一款流行的渐进式 JavaScript 框架&#xff0c;为我们构建交互式用户界面提供了强大的支持。Vue 3 的推出带来了许多新特性&#xff0c;尤其是组合式 API 的引入&#xff0c;让代码的组织和复用更加灵活。同时&#xff0c;TypeS…

基于STM32的循迹小车设计与实现

1 系统方案设计 根据系统设计功能&#xff0c;展开基于STM32的循迹小车设计&#xff0c;整体设计框图如图2.1所示。系统采用STM32单片机作为控制器,通过L298驱动器控制两个直流电机实现对小车的运动控制&#xff0c;两路红外模块实现黑线的检测&#xff0c;HC-SR04超声波模块实…

14.模型,纹理,着色器

模型、纹理和着色器是计算机图形学中的三个核心概念&#xff0c;用通俗易懂的方式来解释&#xff1a; 1. 模型&#xff1a;3D物体的骨架 通俗解释&#xff1a; 模型就像3D物体的骨架&#xff0c;定义了物体的形状和结构。 比如&#xff0c;一个房子的模型包括墙、屋顶、窗户等…

Docker/K8S

文章目录 项目地址一、Docker1.1 创建一个Node服务image1.2 volume1.3 网络1.4 docker compose 二、K8S2.1 集群组成2.2 Pod1. 如何使用Pod(1) 运行一个pod(2) 运行多个pod 项目地址 教程作者&#xff1a;教程地址&#xff1a; https://www.bilibili.com/video/BV1Zn4y1X7AZ?…

Ubuntu 20.04安装Protocol Buffers 2.5.0

个人博客地址&#xff1a;Ubuntu 20.04安装Protocol Buffers 2.5.0 | 一张假钞的真实世界 安装过程 Protocol Buffers 2.5.0源码下载&#xff1a;https://github.com/protocolbuffers/protobuf/tree/v2.5.0。下载并解压。 将autogen.sh文件中以下内容&#xff1a; curl htt…

算法每日双题精讲 —— 二分查找(寻找旋转排序数组中的最小值,点名)

&#x1f31f;快来参与讨论&#x1f4ac;&#xff0c;点赞&#x1f44d;、收藏⭐、分享&#x1f4e4;&#xff0c;共创活力社区。 &#x1f31f; 别再犹豫了&#xff01;快来订阅我们的算法每日双题精讲专栏&#xff0c;一起踏上算法学习的精彩之旅吧&#x1f4aa; 在算法的…

【踩坑日常,已解决】彻底修改IDEA项目的JDK版本,8改为17

三处修改彻底解决IDEA中JDK版本不对问题&#xff08;8改为17&#xff09; 文章目录 三处修改彻底解决IDEA中JDK版本不对问题&#xff08;8改为17&#xff09;第一处第二处第三处 第一处 setting -> Build, Execution, Deployment -> Java Compiler -> Target bytecod…

linux naive代理设置

naive linux客户端 Release v132.0.6834.79-2 klzgrad/naiveproxy GitHub Client setup Run ./naive with the following config.json to get a SOCKS5 proxy at local port 1080. {"listen": "socks://127.0.0.1:1080","proxy": "htt…

redis的分片集群模式

redis的分片集群模式 1 主从哨兵集群的问题和分片集群特点 主从哨兵集群可应对高并发写和高可用性&#xff0c;但是还有2个问题没有解决&#xff1a; &#xff08;1&#xff09;海量数据存储 &#xff08;2&#xff09;高并发写的问题 使用分片集群可解决&#xff0c;分片集群…