Jsoup代码解读之二-DOM相关对象

转载自  Jsoup代码解读之二-DOM相关对象

之前在文章中说到,Jsoup使用了一套自己的DOM对象体系,和Java XML API互不兼容。这样做的好处是从XML的API里解脱出来,使得代码精炼了很多。这篇文章会说明Jsoup的DOM结构,DOM的遍历方式。在下一篇文章,我会并结合这两个基础,分析一下Jsoup的HTML输出功能。

DOM结构相关类

我们先来看看nodes包的类图:

这里可以看到,核心无疑是Node类。

Node类是一个抽象类,它代表DOM树中的一个节点,它包含:

  • 父节点parentNode以及子节点childNodes的引用
  • 属性值集合attributes
  • 页面的uribaseUri,用于修正相对地址为绝对地址
  • 在兄弟节点中的位置siblingIndex,用于进行DOM操作

Node里面包含一些获取属性、父子节点、修改元素的方法,其中比较有意思的是absUrl()。我们知道,在很多html页面里,链接会使用相对地址,我们有时会需要将其转变为绝对地址。Jsoup的解决方案是在attr()的参数开始加"abs:",例如attr("abs:href"),而absUrl()就是其实现方式。我写的爬虫框架webmagic里也用到了类似功能,当时是自己手写的,看到Jsoup的实现,才发现自己是白费劲了,代码如下:

<!-- lang: java -->
URL base;
try {try {base = new URL(baseUri);} catch (MalformedURLException e) {// the base is unsuitable, but the attribute may be abs on its own, so try thatURL abs = new URL(relUrl);return abs.toExternalForm();}// workaround: java resolves '//path/file + ?foo' to '//path/?foo', not '//path/file?foo' as desiredif (relUrl.startsWith("?"))relUrl = base.getPath() + relUrl;// java URL自带的相对路径解析    URL abs = new URL(base, relUrl);return abs.toExternalForm();
} catch (MalformedURLException e) {return "";
}

Node还有一个比较值得一提的方法是abstract String nodeName(),这个相当于定义了节点的类型名(例如Document是'#Document',Element则是对应的TagName)。

Element也是一个重要的类,它代表的是一个HTML元素。它包含一个字段tagclassNames。classNames是"class"属性解析出来的集合,因为CSS规范里,"class"属性允许设置多个,并用空格隔开,而在用Selector选择的时候,即使只指定其中一个,也能够选中其中的元素。所以这里就把"class"属性展开了。Element还有选取元素的入口,例如selectgetElementByXXX,这些都用到了select包中的内容,这个留到下篇文章select再说。

Document是代表整个文档,它也是一个特殊的Element,即根节点。Document除了Element的内容,还包括一些输出的方法。

Document还有一个属性quirksMode,大致意思是定义处理非标准HTML的几个级别,这个留到以后分析parser的时候再说。

DOM树的遍历

Node还有一些方法,例如outerHtml(),用作节点及文档HTML的输出,用到了树的遍历。在DOM树的遍历上,用到了NodeVisitorNodeTraversor来对树的进行遍历。NodeVisitor在上一篇文章提到过了,head()和tail()分别是遍历开始和结束时的方法,而NodeTraversor的核心代码如下:

<!-- lang: java -->
public void traverse(Node root) {Node node = root;int depth = 0;//这里对树进行后序(深度优先)遍历while (node != null) {//开始遍历nodevisitor.head(node, depth);if (node.childNodeSize() > 0) {node = node.childNode(0);depth++;} else {//没有下一个兄弟节点,退栈while (node.nextSibling() == null && depth > 0) {visitor.tail(node, depth);node = node.parent();depth--;}//结束遍历visitor.tail(node, depth);if (node == root)break;node = node.nextSibling();}}
}

这里使用循环+回溯来替换掉了我们常用的递归方式,从而避免了栈溢出的风险。

实际上,Jsoup的Selector机制也是基于NodeVisitor来实现的,可以说NodeVisitor是更加底层和灵活的API。

在下一篇博客我会讲讲Document的输出。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/328195.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

sql server 2012远程链接的方法及步骤

首先说下什么是sql server:(以下是应用某度某科的内容) SQL Server 是Microsoft 公司推出的关系型数据库管理系统。具有使用方便可伸缩性好与相关软件集成程度高等优点&#xff0c;可跨越从运行Microsoft Windows 98 的膝上型电脑到运行Microsoft Windows 2012 的大型多处理器的…

系统架构师考试5

https://download.csdn.net/download/u014484863/10041079 https://download.csdn.net/download/u014484863/10041079 下载首页 精品专辑 我的资源 上传资源赚积分 已下载 我的收藏 参与活动送会员hot 下载帮助 下载 > 考试认证 > 软考等考 > 系统架构师复习资料…

ASP.NET Core 性能对比评测(ASP.NET,Python,Java,NodeJS)

前言 性能是我们日常生活中经常接触到的一个词语&#xff0c;更好的性能意味着能给我们带来更好的用户体检。比如我们在购买手机、显卡、CPU等的时候&#xff0c;可能会更加的关注于这样指标&#xff0c;所以本篇就来做一个性能评测。 性能也一直是我们开发人员一直追求的一个目…

计算机三级网络技术题库第15套,第15套 上机操作题

一、基本操作题*********本题型共有5小题*********1. 将考生文件夹下的RDEV文件夹中的文件KING.MAP删除。2. 在考生文件夹下BEF文件夹中建立一个名为SEOG的新文件夹。3. 将考生文件夹下RM文件夹中的文件PALY.PRG复制到考生文件夹下BMP文件夹中。4. 将考生文件夹下TEED文件夹中的…

Jsoup代码解读之一-概述

转载自 Jsoup代码解读之一-概述今天看到一个用python写的抽取正文的东东&#xff0c;美滋滋的用Java实现了一番&#xff0c;放到了webmagic里&#xff0c;然后发现Jsoup里已经有了…觉得自己各种不靠谱啊&#xff01;算了&#xff0c;静下心来学学好东西吧&#xff01; Jsoup…

法在计算机课程中的应用,尝试教学法在中职《计算机应用基础》课程中的应用(原稿)...

《尝试教学法在中职《计算机应用基础》课程中的应用(原稿).doc》由会员分享&#xff0c;可免费在线阅读全文&#xff0c;更多与《尝试教学法在中职《计算机应用基础》课程中的应用(原稿)》相关文档资源请在帮帮文库(www.woc88.com)数亿文档库存里搜索。1、尝试练习,安排学生进行…

Visual Studio“15”进一步改善性能和易用性

随着Visual Studio“15”开发工作的继续&#xff0c;微软也在不断介绍着为了改善该产品执行速度和安装后体积所做的诸多努力。第5个技术预览版近日已发布&#xff0c;在这些方面也有了进一步提高。 在微软公司John Montgomery发布的新闻稿中&#xff0c;他通过一个视频对比了Ro…

JAVA缓存的实现

转载自 JAVA缓存的实现 缓存可分为二大类: 一、通过文件缓存,顾名思义文件缓存是指把数据存储在磁盘上&#xff0c;不管你是以XML格式&#xff0c;序列化文件DAT格式还是其它文件格式&#xff1b; 二、内存缓存&#xff0c;也就是实现一个类中静态Map,对这个Map进行常规的增删…

myeclipse 2016 ci3破解教程(含软件下载)

一、myeclipse简介&#xff1a; MyEclipse企业级工作平台&#xff08;MyEclipseEnterprise Workbench &#xff0c;简称MyEclipse&#xff09;是对EclipseIDE的扩 展&#xff0c;利用它我们可以在数据库和JavaEE的开发、发布以及应用程序服务器的整合方面极大的提高工作效 率。…

系统架构师考试6

系统架构设计师考试经验 2018年01月29日 15:23:46 大宝大宝吃饱睡好 阅读数 346 原文链接 1. 考试准备流程 考试报名地址 网站比较奇葩&#xff0c;需要IE或者360&#xff0c;chrome不行 1.1 报名 网站注册【大概9月份】填写报名信息上传照片【需要注意照片大小&#xff0c;…

计算机主机组成实验,计算机组成原理实验-运算器组成实验报告

计算机组成原理实验-运算器组成实验报告 曾国江—计算机组成原理实验报告 - 0 - 计算机组成原理课程实验报告9.3 运算器组成实验姓 名&#xff1a; 曾国江 学 号&#xff1a; 系 别&#xff1a; 计算机工程学院 班 级&#xff1a; 网络工程1班 指导老师&#xff1a; 完成时间&a…

Jsoup解析HTML实例及文档方法详解

转载自 Jsoup解析HTML实例及文档方法详解这篇文章主要介绍了Jsoup如何解析一个HTML文档、从文件加载文档、从URL加载Document等方法&#xff0c;对Jsoup常用方法做了详细讲解&#xff0c;最近提供了一个示例供大家参考 使用DOM方法来遍历一个文档 从元素抽取属性&#xff0c;文…

系统架构师考试9

系统架构师复习经验及资料共享 [复制链接] 发表于 2018-2-5 11:25 | 来自 51CTO网页 [只看他] 楼主 在入职第一天。。 人力&#xff1a;有没有证书 我&#xff1a;。。没有&#xff0c;目前都有哪些证书 人力回了一张图&#xff0c;上面大概有PMP、项目管理师、系统架构师…

java通过commons-fileupload实现多张图片的上传(servlet)

//添加食品信息private void addProduct(HttpServletRequest request, HttpServletResponse response) throws IOException{PrintWriter out response.getWriter();/*Date datenew Date();SimpleDateFormat formatnew SimpleDateFormat("yyyy-MM-dd hh:mm:ss");Stri…

javaweb项目搭建ehcache缓存系统

转载自 javaweb项目搭建ehcache缓存系统EhCache 是一个纯Java的进程内缓存框架&#xff0c;具有快速、精干等特点&#xff0c;是Hibernate中默认的CacheProvider&#xff0c;同时在项目开发中也被广泛使用到。接下来就以用户缓存为例&#xff0c;基于javaweb项目来搭建ehcache…

微服务架构之外的选择——基于服务架构

来自ThoughtWorks的主管Neal Ford在最近的一次演讲中表达了他对企业软件系统架构转型的看法&#xff0c;他认为从单体架构转向基于服务的架构要比转向微服务架构来得容易。Ford在UberConf 2016大会上做了一次关于基于服务架构的演讲&#xff0c;基于服务架构是介于面向服务架构…

html5中 save方法,如何HTML5画布另存为窗口8 Metro应用中的图像文件?(How to save html5 c...

var myImage canvas.toDataURL("image/png");我认为myImage在现在png格式如何保存编码的图像字节myImage作为一个文件(图片文件夹)&#xff1f;Answer 1:而不是使用的.toDataUrl &#xff0c;你需要使用.msToBlob &#xff1a;var blob canvas.msToBlob();然后&…

系统架构师8

软考——系统架构设计师工作日志 《E:\Myproject\利亚德\x系统架构设计师\系统架构设计师工作日志.txt》 系统架构设计师 ok --》主要信息 官方&#xff1a; 人事考试服务频道.mht http://www.bjld.gov.cn/bjpta/ 北京人事考试 http://www.bjld.g…

Autofac 之 基于 Castle DynamicProxy2 的 Interceptor 功能

Autofac 结合 Castle DynamicProxy2 功能 Autofac 不仅作为轻量级高效的 IoC 容器&#xff0c;而且还能很好的与 Castle.DynamicProxy2 结合起来&#xff0c;实现 AOP 功能。 首先&#xff0c;我们需要定义拦截器&#xff0c;简单的定义可实现 Castle.DynamicProxy.IIntercepto…

类和对象运行时在内存里是怎么样的?各种变量、方法在运行时是怎么交互的?

转载自 类和对象运行时在内存里是怎么样的&#xff1f;各种变量、方法在运行时是怎么交互的&#xff1f;在回答这个问题之前先了解一下Java的一些基础知识。我们知道Java程序运行在虚拟机环境里&#xff0c;那我们先看一下虚拟机的大致内存结构。如下图所示&#xff0c;虚线框…