Java 使用 PDFBox 提取 PDF 文本并统计关键词出现次数(附Demo)

目录

  • 前言
  • 1. 基本知识
  • 2. 在线URL
    • 2.1 英文
    • 2.2 混合
  • 3. 实战

前言

爬虫神器,无代码爬取,就来:bright.cn

Java基本知识:

  1. java框架 零基础从入门到精通的学习路线 附开源项目面经等(超全)
  2. 【Java项目】实战CRUD的功能整理(持续更新)

需要爬虫相关的PDF,并统计对应PDF里头的词频,其中某个功能需要如下知识点

1. 基本知识

Apache PDFBox 是一个开源的 Java PDF 操作库,支持:

  • 读取 PDF 文件内容(包括文字、图片、元数据)

  • 创建和修改 PDF 文档

  • 提取文本内容用于搜索、分析等操作

Maven相关的依赖:

<dependency><groupId>org.apache.pdfbox</groupId><artifactId>pdfbox</artifactId><version>2.0.29</version>
</dependency>

需下载 在进行统计:

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;import java.io.File;
import java.io.IOException;public class PDFWordCounter {public static void main(String[] args) {String pdfPath = "sample.pdf";  // 替换为你的 PDF 文件路径String keyword = "Java";        // 要统计的词语try {// 加载 PDF 文档PDDocument document = PDDocument.load(new File(pdfPath));// 使用 PDFTextStripper 提取文本PDFTextStripper stripper = new PDFTextStripper();String text = stripper.getText(document);document.close(); // 记得关闭文档资源// 转小写处理,方便忽略大小写String lowerText = text.toLowerCase();String lowerKeyword = keyword.toLowerCase();// 调用词频统计函数int count = countOccurrences(lowerText, lowerKeyword);System.out.println("词语 \"" + keyword + "\" 出现次数: " + count);} catch (IOException e) {e.printStackTrace();}}// 使用 indexOf 遍历匹配词语出现次数private static int countOccurrences(String text, String word) {int count = 0;int index = 0;while ((index = text.indexOf(word, index)) != -1) {count++;index += word.length();}return count;}
}

上述的Demo详细分析下核心知识:

  1. PDDocument.load(File)
    用于加载 PDF 文件到内存中
    PDFBox 使用 PDDocument 表示整个 PDF 对象,使用完后必须调用 close() 释放资源

  2. PDFTextStripper
    PDFBox 中用于提取文字的核心类,会尽可能“以阅读顺序”提取文本,适用于纯文字 PDF 文件。对于图像型扫描件则无效(需 OCR)

  3. 大小写不敏感统计
    实际应用中搜索关键词通常需要忽略大小写,因此我们先统一将文本和关键词转换为小写

  4. indexOf 实现词频统计
    这是最基础也最直观的统计方法,效率较高,但不够精确
    如果需要更精确(只统计完整单词),可以使用正则:

Pattern pattern = Pattern.compile("\\b" + Pattern.quote(word) + "\\b", Pattern.CASE_INSENSITIVE);
Matcher matcher = pattern.matcher(text);
int count = 0;
while (matcher.find()) {count++;
}

2. 在线URL

2.1 英文

此处的Demo需要注意一个点:

注意点说明
PDF 文件是否公开访问不能访问受密码或登录保护的 PDF
文件大小不建议下载和分析过大文件,可能导致内存问题
中文 PDF若是扫描图片形式的中文 PDF,则 PDFBox 无法直接提取文本(需 OCR)
编码问题若中文显示为乱码,可能是 PDF 没有内嵌字体

🔧 思路:

  1. 通过 URL.openStream() 获取在线 PDF 的输入流

  2. 使用 PDFBox 的 PDDocument.load(InputStream) 读取 PDF

  3. 用 PDFTextStripper 提取文本

  4. 用字符串方法或正则统计关键词频率

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;import java.io.InputStream;
import java.net.URL;
import java.util.regex.Matcher;
import java.util.regex.Pattern;public class OnlinePDFKeywordCounter {public static void main(String[] args) {String pdfUrl = "https://www.example.com/sample.pdf"; // 你的在线 PDF 链接String keyword = "Java";  // 需要统计的关键词try (InputStream inputStream = new URL(pdfUrl).openStream();PDDocument document = PDDocument.load(inputStream)) {PDFTextStripper stripper = new PDFTextStripper();String text = stripper.getText(document);// 使用正则匹配单词边界(忽略大小写)Pattern pattern = Pattern.compile("\\b" + Pattern.quote(keyword) + "\\b", Pattern.CASE_INSENSITIVE);Matcher matcher = pattern.matcher(text);int count = 0;while (matcher.find()) {count++;}System.out.println("词语 \"" + keyword + "\" 出现在在线 PDF 中的次数为: " + count);} catch (Exception e) {System.err.println("处理 PDF 时出错: " + e.getMessage());e.printStackTrace();}}
}

2.2 混合

方法适用场景是否支持中文
indexOf中英文都适用
Pattern + \\b仅限英文单词匹配❌ 中文不支持

正则表达式 \\b...\\b(表示“单词边界”)并不适用于中文

统计在想的URL PDF的词频:

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;import java.io.InputStream;
import java.net.URL;public class OnlinePDFKeywordCounter {public static void main(String[] args) {String pdfUrl = "https://www.xxxx.pdf";String keyword = "管理层";  // 要统计的中文关键词try (InputStream inputStream = new URL(pdfUrl).openStream();PDDocument document = PDDocument.load(inputStream)) {PDFTextStripper stripper = new PDFTextStripper();String text = stripper.getText(document);// 直接用 indexOf 不区分大小写(对于中文没必要转小写)int count = countOccurrences(text, keyword);System.out.println("词语 \"" + keyword + "\" 出现次数为: " + count);} catch (Exception e) {System.err.println("处理 PDF 时出错: " + e.getMessage());e.printStackTrace();}}// 简单统计子串出现次数(适用于中文)private static int countOccurrences(String text, String keyword) {int count = 0;int index = 0;while ((index = text.indexOf(keyword, index)) != -1) {count++;index += keyword.length();}return count;}
}

截图如下:

在这里插入图片描述

3. 实战

如果词频比较多,可以使用List

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;import java.io.InputStream;
import java.net.URL;
import java.util.Arrays;
import java.util.List;public class OnlinePDFChinaKeywordCounter {public static void main(String[] args) {String pdfUrl = "https://www.pdf";// 多个中文关键词List<String> keywords = Arrays.asList("营业收入", "净利润", "资产总额", "负债");try (InputStream inputStream = new URL(pdfUrl).openStream();PDDocument document = PDDocument.load(inputStream)) {PDFTextStripper stripper = new PDFTextStripper();String text = stripper.getText(document);// 统计 PDF 中的总文字长度(不含空格和换行)int totalCharacters = text.replaceAll("\\s+", "").length();System.out.println("PDF 中文本总字数(不含空格换行): " + totalCharacters);for (String keyword : keywords) {int count = countOccurrences(text, keyword);System.out.println("词语 \"" + keyword + "\" 出现次数为: " + count);}} catch (Exception e) {System.err.println("处理 PDF 时出错: " + e.getMessage());e.printStackTrace();}}// 统计某个关键词出现次数private static int countOccurrences(String text, String keyword) {int count = 0;int index = 0;while ((index = text.indexOf(keyword, index)) != -1) {count++;index += keyword.length();}return count;}
}

截图如下:

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/81307.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue百日学习计划Day16-18天详细计划-Gemini版

重要提示&#xff1a; 番茄时钟&#xff1a; 每个番茄钟为25分钟学习&#xff0c;之后休息5分钟。每完成4个番茄钟&#xff0c;进行一次15-30分钟的长休息。动手实践&#xff1a; DOM 操作和事件处理的理解高度依赖于实际编码。请务必在浏览器中创建 HTML 页面&#xff0c;并配…

SearchClassUtil

路径扫描工具SearchClassUtil&#xff0c;用于扫描指定包&#xff08;XXXX&#xff09;下的所有.class文件&#xff0c;并将它们的全限定类名&#xff08;如tomcat.SearchClassUtil&#xff09;收集到列表中返回。该工具使用递归文件遍历和反射机制&#xff0c;是实现 Spring 框…

云服务器的运用自如

云服务器的运用自如&#xff1a;从基础到高阶的实战指南&#xff08;2025版&#xff09; 云服务器作为数字化转型的核心工具&#xff0c;其灵活性和高效性已覆盖从个人开发者到企业级应用的广泛场景。以下是基于当前技术趋势的云服务器深度运用策略&#xff0c;涵盖核心应用、…

解密企业级大模型智能体Agentic AI 关键技术:MCP、A2A、Reasoning LLMs-docker MCP解析

解密企业级大模型智能体Agentic AI 关键技术&#xff1a;MCP、A2A、Reasoning LLMs-docker MCP解析 这里面有很重要的原因其中一个很其中一个原因是因为如果你使用docker的方式&#xff0c;你可以在虚拟环境下就类似于这个沙箱的这个机制可以进行隔离。这对于安全&#xff0c;…

快慢指针算法(Floyd 判圈算法)

快慢指针&#xff08;又称龟兔赛跑算法&#xff09;是一种常用的链表操作技巧&#xff0c;通过两个移动速度不同的指针遍历链表&#xff0c;用于解决链表中环检测、中点查找等问题。以下是其核心应用场景和实现方法&#xff1a; 1. 链表环检测 问题描述&#xff1a; 判断链表中…

独立开发者利用AI工具快速制作产品MVP

在当今快速发展的科技时代&#xff0c;独立开发者面临着前所未有的机遇与挑战。曾经需要花费数天甚至数周才能完成的产品MVP&#xff08;Minimum Viable Product&#xff0c;最小可行性产品&#xff09;&#xff0c;如今借助强大的AI工具&#xff0c;可以在短短1小时内实现。 …

Spark处理过程-转换算子和行动算子

&#xff08;一&#xff09;RDD的处理过程 RDD经过一系列的“转换”操作&#xff0c;每一次转换都会产生不同的RDD&#xff0c;以供给下一次“转换”操作使 用&#xff0c;直到最后一个RDD经过“行动”操作才会真正被计算处理。 1.延迟。RDD中所有的转换都是延迟的&…

设置环境变量启动jar报

1. 环境变量设置 set PATHC:\Program Files\java17\jdk-17.0.9\bin;%PATH%2. 启动jar java -jar jar包名3. 记录原因 PATH路径前添加java执行文件路径才会管用。添加后可以试试以下命令 直接输入PATH 回车 PATH进行java版本测试 java -version

589. N叉树的前序遍历迭代法:null指针与栈的巧妙配合

一、题目描述 给定一个N叉树的根节点&#xff0c;返回其节点值的前序遍历结果。前序遍历的定义是&#xff1a;先访问根节点&#xff0c;再依次遍历每个子节点&#xff08;从左到右&#xff09;。例如&#xff0c;对于如下N叉树&#xff1a; 1/ | \3 2 4 / \ 5 6前序遍历结果…

显性知识的主要特征

有4个主要特征&#xff1a; 客观存在性静态存在性可共享性认知元能性

奥运数据可视化:探索数据讲述奥运故事

在数据可视化的世界里&#xff0c;体育数据因其丰富的历史和文化意义&#xff0c;常常成为最有吸引力的主题之一。今天我要分享一个令人着迷的奥运数据可视化项目&#xff0c;它巧妙地利用交互式图表和动态动画&#xff0c;展现了自1896年至今奥运会的发展历程和各国奥运成就的…

Mysql存储过程(附案例)

​ 文章目录 存储过程概述1、基本语法2、变量①、系统变量②、用户自定义变量③、局部变量 3、流程控制语句①、if语句②、参数③、case语句④、while语句⑤、repeat语句⑥、loop语句⑦、cursor游标⑧、handler 4、存储函数 存储过程概述 存储过程是事先经过编译并存储在数据…

小波变换+注意力机制成为nature收割机

小波变换作为一种新兴的信号分析工具&#xff0c;能够高效地提取信号的局部特征&#xff0c;为复杂数据的处理提供了有力支持。然而&#xff0c;它在捕捉数据中最为关键的部分时仍存在局限性。为了弥补这一不足&#xff0c;我们引入了注意力机制&#xff0c;借助其能够强化关注…

SQLMesh 增量模型从入门到精通:5步实现高效数据处理

本文深入解析 SQLMesh 中的增量时间范围模型&#xff0c;介绍其核心原理、配置方法及高级特性。通过实际案例说明如何利用该模型提升数据加载效率&#xff0c;降低计算资源消耗&#xff0c;并提供配置示例与最佳实践建议&#xff0c;帮助读者在实际项目中有效应用这一强大功能。…

Android应用内存分析与优化 - 工具篇之Booster

序 在原理篇中&#xff0c;我们发现在App内存的分布中&#xff0c;Code是占大头的部分&#xff0c;所以我们可以从App体积方面想办法&#xff0c;通过减小App体积达到降低内存的目的&#xff0c;同时&#xff0c;根据权威的机构分析&#xff0c;体积与用户下载和留存有很大的联…

金属加工液展|切削液展|2025上海金属加工液展览会

2025上海金属加工液展览会 时间&#xff1a;2025年12月2-4日 地点&#xff1a;上海新国际博览中心 2025上海金属加工液展规划30000平方米展览规模&#xff0c;预设展位1200个&#xff0c;将为国内外加工液产业提供一个集“展示、合作、交易、发展”于一体的综合性平台&#…

React学习———Redux 、 React Redux和react-persist

Redux Redux是一个流行的JavaScript状态管理库&#xff0c;通常用于React等前端框架结合使用。Redux 的设计思想是让应用的状态变得可预测、可追踪、易于调试和测试。 Redux的核心l理念 单一数据源&#xff1a;整个应用的状态被存储在一个唯一的Store对象中&#xff0c;所有…

Python字符串常用方法详解

文章目录 Python字符串常用方法详解一、字符串大小写转换方法(常用)1. 基础大小写转换2. 案例&#xff1a;验证码检查&#xff08;不区分大小写&#xff09; 二、字符串查找与替换方法1. 查找相关方法2. 替换相关方法 三、字符串判断方法1. 内容判断方法 四、字符串分割与连接方…

MyBatis—动态 SQL

MyBatis—动态 SQL 一、动态 SQL 的核心作用 动态 SQL 主要解决以下问题&#xff1a; 灵活性&#xff1a;根据不同的输入参数生成不同的 SQL 语句&#xff08;如条件查询、批量操作&#xff09;。 可维护性&#xff1a;减少重复代码&#xff0c;通过标签化逻辑提高 SQL 可读…

Python机器学习笔记(二十五、算法链与管道)

对于许多机器学习算法,特定数据表示非常重要。首先对数据进行缩放,然后手动合并特征,再利用无监督机器学习来学习特征。因此,大多数机器学习应用不仅需要应用单个算法,而且还需要将许多不同的处理步骤和机器学习模型链接在一起。Pipeline类可以用来简化构建变换和模型链的…