注册免费的网站挂机宝做php网站吗

web/2025/9/27 4:06:22/文章来源:
注册免费的网站,挂机宝做php网站吗,运城做网站,响应式网站设计工具转载自 Jsoup代码解读之一-概述今天看到一个用python写的抽取正文的东东#xff0c;美滋滋的用Java实现了一番#xff0c;放到了webmagic里#xff0c;然后发现Jsoup里已经有了…觉得自己各种不靠谱啊#xff01;算了#xff0c;静下心来学学好东西吧#xff01; Jsoup…转载自   Jsoup代码解读之一-概述今天看到一个用python写的抽取正文的东东美滋滋的用Java实现了一番放到了webmagic里然后发现Jsoup里已经有了…觉得自己各种不靠谱啊算了静下心来学学好东西吧 Jsoup是Java世界用作html解析和过滤的不二之选。支持将html解析为DOM树、支持CSS Selector形式选择、支持html过滤本身还附带了一个Http下载器。从今天开始会写一个Jsoup源码解读系列比起之前的博客尽量会写的详尽一些。 概述 Jsoup的代码相当简洁Jsoup总共53个类且没有任何第三方包的依赖对比最终发行包9.8M的SAXON实在算得上是短小精悍了。 jsoup ├── examples #样例包括一个将html转为纯文本和一个抽取所有链接地址的例子。 ├── helper #一些工具类包括读取数据、处理连接以及字符串转换的工具 ├── nodes #DOM节点定义 ├── parser #解析html并转换为DOM树 ├── safety #安全相关包括白名单及html过滤 └── select #选择器支持CSS Selector以及NodeVisitor格式的遍历使用 Jsoup的入口是Jsoup类。examples包里提供了两个例子解析html后分别用CSS Selector以及NodeVisitor来操作Dom元素。 这里用ListLinks里的例子来说明如何调用Jsoup !-- lang: java -- public static void main(String[] args) throws IOException {Validate.isTrue(args.length 1, usage: supply url to fetch);String url args[0];print(Fetching %s..., url);// 下载url并解析成html DOM结构Document doc Jsoup.connect(url).get();// 使用select方法选择元素参数是CSS Selector表达式Elements links doc.select(a[href]);print(\nLinks: (%d), links.size());for (Element link : links) {//使用abs:前缀取绝对url地址print( * a: %s (%s), link.attr(abs:href), trim(link.text(), 35));} }Jsoup使用了自己的一套DOM代码体系这里的Elements、Element等虽然名字和概念都与Java XML APIorg.w3c.dom类似但并没有代码层面的关系。就是说你想用XML的一套API来操作Jsoup的结果是办不到的但是正因为如此才使得Jsoup可以抛弃xml里一些繁琐的API使得代码更加简单。 还有一种方式是通过NodeVisitor来遍历DOM树这个在对整个html做分析和替换时比较有用 !-- lang: java -- public interface NodeVisitor {//遍历到节点开始时调用此方法public void head(Node node, int depth);//遍历到节点结束时(所有子节点都已遍历完)调用此方法public void tail(Node node, int depth); }HtmlToPlainText的例子说明了如何使用NodeVisitor来遍历DOM树将html转化为纯文本并将需要换行的标签替换为换行\n !-- lang: java -- public static void main(String... args) throws IOException {Validate.isTrue(args.length 1, usage: supply url to fetch);String url args[0];// fetch the specified URL and parse to a HTML DOMDocument doc Jsoup.connect(url).get();HtmlToPlainText formatter new HtmlToPlainText();String plainText formatter.getPlainText(doc);System.out.println(plainText); }public String getPlainText(Element element) {//自定义一个NodeVisitor - FormattingVisitorFormattingVisitor formatter new FormattingVisitor();//使用NodeTraversor来装载FormattingVisitorNodeTraversor traversor new NodeTraversor(formatter);//进行遍历traversor.traverse(element);return formatter.toString(); }下一节将从DOM结构开始对Jsoup代码进行分析。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/82530.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

dw个人网站建立教学哈尔滨网站建设哪家好而且价格不贵

YUM或Yellowdog Updater Modified是管理rpm包的前端工具。 它用于通过命令行界面或使用图形模式来安装,删除,更新和收集有关rpm软件包的信息。 使用YUM的主要优点是,它解决了rpm包的所有依赖关系,并将它们与包一起安装。下面让我们…

服装网站建设环境分析房地产交易网官网

LovePHP 直接给了源码。 network查看到,PHP版本是7.4.33 题目要求我们GET一个my_secret.flag参数,根据PHP字符串解析特性,PHP需要将所有参数转换为有效的变量名,因此在解析查询字符串时,它会做两件事: 删…

南昌专业做网站公司哪家好炒股网站怎么做

【耐水好】强耐水UV胶水是怎样的? 强耐水UV胶水是一种特殊的胶水,其设计重点在于其出色的耐水性能。以下是关于强耐水UV胶水的特点: 优异的耐水性能:这种胶水能在水环境下保持稳定的粘接强度,不易被水分解或削弱。因…

网站建设 镇江网站标题字体

一、功能描述 技术实现 选型:minio 文件存储服务器 onlyoffice 文档编辑器 选项特征:免费,支持私有化部署,不依赖第三方网络接口 Podman是RedHat开发的一个用户友好的容器调度器,是一种开源的Linux原生工具&#x…

烟台seo网站诊断权威迷失传奇新开网站

超时调用需要使用window.setTimeout(code,millisec)方法 它接受两个参数:要执行的代码和以毫秒表示的时间(即在执行代码前需要等待多少毫秒)。其中第一个参数可以是一个包含JS代码的字符串(就和在eval()函数中使用的字符串一样&a…

网站很久没被收录的新闻怎么处理东西湖区城乡建设局网站

前言 最近在搞知识库,需要把各种 Word、PowerPoint、Excel 文件转换成 PDF 文件,不然 Word 中的表格中的文字提取会出现一些问题;使用 Office 或者 WPS 将大量文件转换成 PDF 需要频繁重复打开文件,点击保存为PDF,然后…

php网站开发需要学哪些乐彩网站源码网站建设

当为你的下一个设计方案选择正确的核心处理器件时,你应该考虑哪些因素呢?本文将对MPU和MCU做些对比分析,并以此对器件的选择给出一些指导性建议和意见。 本文引用地址:http://www.eepw.com.cn/article/164617.htm 每当在为新设计选择正确合理…

搜索引擎排名网站如何查询中小企业名单

ChatGPT无限次数:点击直达 ChatGPT助力学术成就:打造完美论文技巧 在当今信息爆炸的时代,学术研究对于每个领域的进步和发展至关重要。而在学术研究中,撰写高质量的论文是展示研究成果和贡献的重要方式之一。然而,许多学者在论文…

汕头投资建设总公司网站织梦网站地图自动更新

Edge 被 hao123 劫持解决方法_edge被hao123锁定改不了_小子宝丁的博客-CSDN博客

做外贸网站机构百度一下你就知道了 官网

1、作用&#xff1a; <StrictMode> 是 React 提供的一个组件&#xff0c;用于帮助开发者在开发过程中检测潜在的问题&#xff0c;并修复一些常见的警告。 使用 <StrictMode> 组件包裹应用程序或组件可以启用一些额外的检查和警告。它可以帮助你捕获可能的错误、发…

佛山市做网站的免费字体设计图片

completeUnitOfWork 1 &#xff09;概述 各种不同类型组件的一个更新过程对应的是在执行 performUnitOfWork 里面的 beginWork 阶段它是去向下遍历一棵 fiber 树的一侧的子节点&#xff0c;然后遍历到叶子节点为止&#xff0c;以及 return 自己 child 的这种方式在 performUni…

东莞seo建站咨询企业设计公司

文章目录 0.简介1.PG日志介绍2.事务日志介绍3.WAL分析3.1 WAL概述3.2 WAL设计考虑3.2.1 存储格式3.2.2 实现方式3.2.3 数据完整性校验3.3 check ponit 4.事务提交日志&#xff08;CLOG&#xff09;4.1 clog存储使用介绍4.2 slru缓冲池并发控制 0.简介 本文将延续上一篇文章内容…

高端品牌型网站建设顶尖网站设计公司

java springboot word文档转pdf 1、环境2、依赖3、代码 1、环境 1、java、springboot 2、maven或者gradle 3、办公软件&#xff08;自己电脑上的wps或者office等&#xff0c;如果部署到服务器上也要安装&#xff0c;linux、Mac 都有&#xff0c;自己安装&#xff09; 可能会遇…

建站宝盒全能版重庆标本制作

连接别人&#xff1a;vim /etc/ssh/ssh_config 被连接&#xff1a; vim /etc/ssh/sshd_config 端口重启生效&#xff1a; /etc/init.d/sshd restart 转载于:https://www.cnblogs.com/gered/p/10871335.html

校园网站建设年度工作计划mq网站开发

用户在确认订单页面&#xff0c;可以针对收货地址做如下操作&#xff1a; 1. 查询用户的所有收货地址列表 2. 新增收货地址 3. 删除收货地址 4. 修改收货地址 5. 设置默认地址步骤1&#xff1a;创建对应用户地址BO public class AddressBO {private String addressId;private…

北京网站建设一条龙中山有哪些网站建立公司

数字、布尔值和字符串是构建数据结构的原子。不过&#xff0c;许多类型的信息需要不止一个原子。对象允许我们对值&#xff08;包括其他对象&#xff09;进行分组&#xff0c;从而构建更复杂的结构。到目前为止&#xff0c;我们所构建的程序都受到限制&#xff0c;因为它们只能…

.net 创建网站项目美食网站建设设计方案

文章目录 Linux第2课Windows下的环境配置-虚拟机安装一、VMware虚拟机的安装&#xff08;一&#xff09;安装VMware&#xff08;二&#xff09;启动电脑本地的VMware相关服务 二、VirtualBox安装 Linux第2课Windows下的环境配置-虚拟机安装 本节课程提供了两种虚拟机的安装方法…

工信部的网站备案信息图书馆网站建设与评价研究

线程和进程的区别 进程和线程的区别线程的优点 进程和线程的区别 1. 进程是系统进行资源分配和调度的一个独立单位,线程是程序执行的最小单位. 2. 进程有自己的内存地址空间,线程只独享指令流执行的必要资源,如寄存器和栈. 3. 由于同一进程的各线程共享内存和文件资源,可以不通…

霸县网站建设赞友商城电商平台排名第几

目录 一、Sticky分区分配策略原理二、Sticky分区分配策略 示例需求三、Sticky分区分配策略代码案例3.1、创建带有7个分区的sevenTopic主题3.2、创建三个消费者 组成 消费者组3.3、创建生产者3.4、测试3.5、Sticky分区分配策略代码案例说明 四、Sticky分区分配再平衡案例4.1、停…

口碑好的丹徒网站建设哪个网站找做软件下载

转载自 Java中的ThreadPoolExecutor类在前面的文章中&#xff0c;我们使用线程的时候就去创建一个线程&#xff0c;这样实现起来非常简便&#xff0c;但是就会有一个问题&#xff1a; 如果并发的线程数量很多&#xff0c;并且每个线程都是执行一个时间很短的任务就结束了&…