Jsoup库和Apache HttpClient库有什么区别?

JsoupApache HttpClient 是两个功能不同的库,它们在 Java 开发中被广泛使用,但用途和功能有明显的区别:

Jsoup

  • 用途Jsoup 是一个用于解析 HTML 文档的库。它提供了非常方便的方法来抓取和解析网页内容,提取和操作数据,如获取网页中的文本、图片、链接等。

  • 功能

    • 解析 HTML:可以解析 HTML 文档,无论是从字符串、文件还是通过 URL 获取的 HTML 内容。

    • 提取数据:通过 CSS 选择器或 DOM 操作来提取页面中的数据。

    • 修改 HTML:可以修改 HTML 文档的内容,例如添加、删除或修改标签和属性。

    • 抓取网页:可以直接通过 URL 抓取网页内容,并进行解析。

  • 示例代码

    java
    import org.jsoup.Jsoup;
    import org.jsoup.nodes.Document;
    import org.jsoup.nodes.Element;
    import org.jsoup.select.Elements;public class JsoupExample {public static void main(String[] args) throws Exception {// 抓取网页Document doc = Jsoup.connect("https://example.com").get();// 提取标题String title = doc.title();System.out.println("Title: " + title);// 提取所有链接Elements links = doc.select("a[href]");for (Element link : links) {System.out.println("Link: " + link.attr("href"));}}
    }

Apache HttpClient

  • 用途Apache HttpClient 是一个用于发送 HTTP 请求的库。它提供了丰富的功能来处理 HTTP 协议,包括发送 GET、POST、PUT、DELETE 等请求,处理响应,管理 cookies 和会话等。

  • 功能

    • 发送 HTTP 请求:可以发送各种类型的 HTTP 请求,并处理响应。

    • 管理会话:支持 cookies 和会话管理,可以处理登录、认证等操作。

    • 自定义请求:可以自定义请求头、请求体等,以满足复杂的请求需求。

    • 异步请求:支持异步请求,可以提高程序的性能。

  • 示例代码

    java
    import org.apache.http.client.methods.CloseableHttpResponse;
    import org.apache.http.client.methods.HttpGet;
    import org.apache.http.impl.client.CloseableHttpClient;
    import org.apache.http.impl.client.HttpClients;
    import org.apache.http.util.EntityUtils;public class HttpClientExample {public static void main(String[] args) throws Exception {// 创建 HttpClient 实例try (CloseableHttpClient httpClient = HttpClients.createDefault()) {// 创建 HttpGet 请求HttpGet request = new HttpGet("https://example.com");// 发送请求try (CloseableHttpResponse response = httpClient.execute(request)) {// 获取响应内容String content = EntityUtils.toString(response.getEntity());System.out.println("Content: " + content);}}}
    }

主要区别

  • 功能定位

    • Jsoup 主要用于解析 HTML 文档,提取和操作数据。

    • Apache HttpClient 主要用于发送 HTTP 请求,处理 HTTP 协议。

  • 使用场景

    • 如果你需要抓取网页内容并解析 HTML,Jsoup 是一个很好的选择。

    • 如果你需要发送 HTTP 请求,处理复杂的 HTTP 协议,Apache HttpClient 是一个强大的工具。

  • 依赖关系

    • Jsoup 可以独立使用,用于解析 HTML。

    • Apache HttpClient 通常用于发送 HTTP 请求,获取网页内容后,可以结合 Jsoup 进行解析。

结合使用

在实际开发中,JsoupApache HttpClient 可以结合使用。例如,你可以使用 Apache HttpClient 发送 HTTP 请求获取网页内容,然后使用 Jsoup 解析这些内容。

java

import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;public class CombinedExample {public static void main(String[] args) throws Exception {// 创建 HttpClient 实例try (CloseableHttpClient httpClient = HttpClients.createDefault()) {// 创建 HttpGet 请求HttpGet request = new HttpGet("https://example.com");// 发送请求try (CloseableHttpResponse response = httpClient.execute(request)) {// 获取响应内容String content = EntityUtils.toString(response.getEntity());// 使用 Jsoup 解析内容Document doc = Jsoup.parse(content);// 提取标题String title = doc.title();System.out.println("Title: " + title);}}}
}

通过结合使用 JsoupApache HttpClient,你可以更灵活地处理网页抓取和数据解析的任务。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/81700.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

腾讯云存储原理

我们来详细展开你提到的两个核心结构概念: 一、“基于分布式文件系统 对象存储技术” 是什么? 1. 分布式文件系统(DFS)基础 分布式文件系统是一种支持将数据分布在多个存储节点上、并对上层用户透明的文件系统。腾讯云COS虽然是…

python fastapi + react, 写一个图片 app

1. 起因, 目的: 上厕所的时候,想用手机查看电脑上的图片,但是又不想点击下载。此app 应运而生。 2. 先看效果 单击图片,能放大图片 3. 过程: 过程很枯燥。有时候, 有一堆新的想法。 但是做起来太麻烦,…

Kubernetes控制平面组件:Kubelet详解(五):切换docker运行时为containerd

云原生学习路线导航页(持续更新中) kubernetes学习系列快捷链接 Kubernetes架构原则和对象设计(一)Kubernetes架构原则和对象设计(二)Kubernetes架构原则和对象设计(三)Kubernetes控…

QT6 源(111):阅读与注释菜单栏 QMenuBar,进行属性与成员函数测试,信号与槽函数测试,并给出源码

(1) (2) (3) (4) (5) (6) (7)以下源代码来自于头文件 qmenubar . h : #ifndef QMENUBAR_H #defi…

Leetcode 3552. Grid Teleportation Traversal

Leetcode 3552. Grid Teleportation Traversal 1. 解题思路2. 代码实现 题目链接:3552. Grid Teleportation Traversal 1. 解题思路 这一题的话核心就是一个广度优先遍历,我们只需要从原点开始,一点点考察其所能到达的位置,直至…

2023CCPC河南省赛暨河南邀请赛个人补题ABEFGHK

Dashboard - 2023 CCPC Henan Provincial Collegiate Programming Contest - Codeforces 过题难度:A H F G B K E 铜奖: 2 339 银奖: 3 318 金奖: 5 523 A: 直接模拟 // Code Start Here int t;cin >> t;while(t-…

如何用Python批量解压ZIP文件?快速解决方案

如何用Python批量解压ZIP文件?快速解决方案 文章目录 **如何用Python批量解压ZIP文件?快速解决方案**代码结果详细解释 话不多说,先上干货!!! 代码 import os import zipfiledef unzip_file(dir_path: str…

Spring Boot 的高级特性与经典的设计模式应用

目录 1. 设计模式在 Spring Boot 中的应用 1.1 单例模式:Bean 管理与全局实例 1.1.1 Spring 中的单例 Bean 1.1.2 自定义单例实现 1.1.3 单例模式的优势 1.2 工厂模式:动态创建 Bean 1.2.1 Spring 的工厂方法 1.2.2 自定义工厂类 1.2.3 工厂模式…

在Excel中使用函数公式时,常见错误对应不同的典型问题

在Excel中使用函数公式时,常见错误对应不同的典型问题 1. #DIV/0!(除以零错误)2. #N/A(值不可用)3. #NAME?(名称错误)4. #NULL!(空交集错误)5. #NUM!(数值错…

【cursor疑惑】cursor续杯后使用agent对话时,提示“需要pro或商业订阅的用户才能使用“

背景 cursor的pro会员体验过期了,想再次体验deepseek、Claude等agent对话提示:“免费版本不可以使用agent对话功能(英文忘记截图了,大意是这样)”。 处理方法 Step-1:再次续杯cursor的pro会员14天体验 详情,见:【c…

解决qt.network.ssl: QSslSocket::connectToHostEncrypted: TLS initialization failed

可以参考:解决qt.network.ssl: QSslSocket::connectToHostEncrypted: TLS initialization failed-CSDN博客 讲的是程序执行目录下可能缺少了: libssl-1_1-x64.dll 和 libcrypto-1_1-x64.dll 库文件,将其复制到可执行文件exe的同级目录下即可…

白杨SEO:不到7天,白杨SEO博客网站百度搜索显示和排名恢复正常!顺带说说上海线下GEO聚会分享和播客红利

大家好,我是白杨SEO,专注SEO十年以上,全网SEO流量实战派,AI搜索优化研究者。 5月开始,明显就忙起来了,不管是个人陪跑还是企业顾问,不管是需要传统SEO还是新媒体流量,还是当下这个A…

FART 自动化脱壳框架简介与脱壳点的选择

版权归作者所有,如有转发,请注明文章出处:https://cyrus-studio.github.io/blog/ FART简介 ART 环境下基于主动调用的自动化脱壳方案,可以解决函数抽取壳。 关于函数抽取壳的实现原理可以参考:基于 art 下的类加载机…

卷积神经网络进阶:转置卷积与棋盘效应详解

【内容摘要】 本文深入解析卷积神经网络中的转置卷积(反卷积)技术,重点阐述标准卷积与转置卷积的计算过程、转置卷积的上采样作用,以及其常见问题——棋盘效应的产生原因与解决方法,为图像分割、超分辨率等任务提供理论…

Redis进阶知识

Redis 1.事务2. 主从复制2.1 如何启动多个Redis服务器2.2 监控主从节点的状态2.3 断开主从复制关系2.4 额外注意2.5拓扑结构2.6 复制过程2.6.1 数据同步 3.哨兵选举原理注意事项 4.集群4.1 数据分片算法4.2 故障检测 5. 缓存5.1 缓存问题 6. 分布式锁 1.事务 Redis的事务只能保…

SDC命令详解:使用get_libs命令进行查询

相关阅读 SDC命令详解https://blog.csdn.net/weixin_45791458/category_12931432.html?spm1001.2014.3001.5482 get_libs命令用于创建一个库对象集合,关于设计对象和集合的更详细介绍,可以参考下面的博客。需要注意的是,在有些工具中还存在…

idea2024 不知道安装了什么插件,界面都是中文的了,不习惯,怎么修改各个选项改回英文

如果你的 IntelliJ IDEA 2024 突然变成中文界面,很可能是安装了中文语言包插件(如 “Chinese (Simplified) Language Pack”)。以下是 彻底恢复英文界面 的方法: 方法 1:直接卸载中文插件(推荐)…

物流项目第二期(用户端登录与双token三验证)

第一期内容: 物流项目第一期(登录业务)-CSDN博客 用户端登录 实现分析 登录功能 Data public class UserLoginRequestVO {ApiModelProperty("登录临时凭证")private String code;ApiModelProperty("手机号临时凭证"…

精准掌控张力动态,重构卷对卷工艺设计

一、MapleSim Web Handling Library仿真和虚拟调试解决方案 在柔性材料加工领域,卷对卷(Roll-to-Roll)工艺的效率与质量直接决定了产品竞争力。如何在高动态生产场景中实现张力稳定、减少断裂风险、优化加工速度,是行业长期面临的…

Voxblox算法

文章目录 1. 算法简介2. 由 TSDF 构建 ESDF 的方法2.1. 论文解读2.2. 伪代码实现 1. 算法简介 Voxblox 算法出现于文献《Voxblox: Incremental 3D Euclidean Signed Distance Fields for On-Board MAV Planning》,PDF 链接:https://arxiv.org/pdf/1611.…