Jsoup代码解读之六-parser(下)

转载自   Jsoup代码解读之六-parser(下)

最近生活上有点忙,女儿老是半夜不睡,精神状态也不是很好。工作上的事情也谈不上顺心,有很多想法但是没有几个被认可,有些事情也不是说代码写得好就行的。算了,还是端正态度,毕竟资历尚浅,我还是继续我的。

读Jsoup源码并非无聊,目的其实是为了将webmagic做的更好一点,毕竟parser也是爬虫的重要组成部分之一。读了代码后,收获也不少,对HTML的知识也更进一步了。

DOM树产生过程

这里单独将TreeBuilder部分抽出来叫做语法分析过程可能稍微不妥,其实就是根据Token生成DOM树的过程,不过我还是沿用这个编译器里的称呼了。

TreeBuilder同样是一个facade对象,真正进行语法解析的是以下一段代码:

<!-- lang: java -->
protected void runParser() {while (true) {Token token = tokeniser.read();process(token);if (token.type == Token.TokenType.EOF)break;}
}

TreeBuilder有两个子类,HtmlTreeBuilderXmlTreeBuilderXmlTreeBuilder自然是构建XML树的类,实现颇为简单,基本上是维护一个栈,并根据不同Token插入节点即可:

<!-- lang: java -->
@Override
protected boolean process(Token token) {// start tag, end tag, doctype, comment, character, eofswitch (token.type) {case StartTag:insert(token.asStartTag());break;case EndTag:popStackToClose(token.asEndTag());break;case Comment:insert(token.asComment());break;case Character:insert(token.asCharacter());break;case Doctype:insert(token.asDoctype());break;case EOF: // could put some normalisation here if desiredbreak;default:Validate.fail("Unexpected token type: " + token.type);}return true;
}

insertNode的代码大致是这个样子(为了便于展示,对方法进行了一些整合):

<!-- lang: java -->
Element insert(Token.StartTag startTag) {Tag tag = Tag.valueOf(startTag.name());Element el = new Element(tag, baseUri, startTag.attributes);stack.getLast().appendChild(el);if (startTag.isSelfClosing()) {tokeniser.acknowledgeSelfClosingFlag();if (!tag.isKnownTag()) // unknown tag, remember this is self closing for output. see above.tag.setSelfClosing();} else {stack.add(el);}return el;
}

HTML解析状态机

相比XmlTreeBuilderHtmlTreeBuilder则实现较为复杂,除了类似的栈结构以外,还用到了HtmlTreeBuilderState来构建了一个状态机来分析HTML。这是为什么呢?不妨看看HtmlTreeBuilderState到底用到了哪些状态吧(在代码中中用<!-- State: --&gt;标明状态):

<!-- lang: html -->
<!-- State: Initial -->
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<!-- State: BeforeHtml -->
<html lang='zh-CN' xml:lang='zh-CN' xmlns='http://www.w3.org/1999/xhtml'>
<!-- State: BeforeHead -->
<head><!-- State: InHead --><script type="text/javascript">//<!-- State: Text -->function xx(){}</script><noscript><!-- State: InHeadNoscript -->Your browser does not support JavaScript!</noscript>
</head>
<!-- State: AfterHead -->
<body>
<!-- State: InBody -->
<textarea><!-- State: Text -->xxx
</textarea>
<table><!-- State: InTable --><!-- State: InTableText -->xxx<tbody><!-- State: InTableBody --></tbody><tr><!-- State: InRow --><td><!-- State: InCell --></td></tr>    
</table>
</html>

这里可以看到,HTML标签是有嵌套要求的,例如<tr>,<td>需要组合<table>来使用。根据Jsoup的代码,可以发现,HtmlTreeBuilderState做了以下一些事情:

  • 语法检查

    例如tr没有嵌套在table标签内,则是一个语法错误。当InBody状态直接出现以下tag时,则出错。Jsoup里遇到这种错误,会发现这个Token的解析并记录错误,然后继续解析下面内容,并不会直接退出。

      <!-- lang: java -->InBody {boolean process(Token t, HtmlTreeBuilder tb) {if (StringUtil.in(name,"caption", "col", "colgroup", "frame", "head", "tbody", "td", "tfoot", "th", "thead", "tr")) {tb.error(this);return false;}}
    
  • 标签补全

    例如head标签没有闭合,就写入了一些只有body内才允许出现的标签,则自动闭合</head>HtmlTreeBuilderState有的方法anythingElse()就提供了自动补全标签,例如InHead状态的自动闭合代码如下:

      	<!-- lang: java -->private boolean anythingElse(Token t, TreeBuilder tb) {tb.process(new Token.EndTag("head"));return tb.process(t);}
    

    还有一种标签闭合方式,例如下面的代码:

      <!-- lang: java -->private void closeCell(HtmlTreeBuilder tb) {if (tb.inTableScope("td"))tb.process(new Token.EndTag("td"));elsetb.process(new Token.EndTag("th")); // only here if th or td in scope}
    

实例研究

缺少标签时,会发生什么事?

好了,看了这么多parser的源码,不妨回到我们的日常应用上来。我们知道,在页面里多写一个两个未闭合的标签是很正常的事,那么它们会被怎么解析呢?

就拿<div>标签为例:

  1. 漏写了开始标签,只写了结束标签

     <!-- lang: java -->case EndTag:if (StringUtil.in(name,"div","dl", "fieldset", "figcaption", "figure", "footer", "header", "pre", "section", "summary", "ul")) {                if (!tb.inScope(name)) {tb.error(this);return false;} }	
    

    恭喜你,这个</div>会被当做错误处理掉,于是你的页面就毫无疑问的乱掉了!当然,如果单纯多写了一个</div>,好像也不会有什么影响哦?(记得有人跟我讲过为了防止标签未闭合,而在页面底部多写了几个</div>的故事)

  2. 写了开始标签,漏写了结束标签

    这个情况分析起来更复杂一点。如果是无法在内部嵌套内容的标签,那么在遇到不可接受的标签时,会进行闭合。而<div>标签可以包括大多数标签,这种情况下,其作用域会持续到HTML结束。

好了,parser系列算是分析结束了,其间学到不少HTML及状态机内容,但是离实际使用比较远。下面开始select部分,这部分可能对日常使用更有意义一点。

最后附上我的Jsoup系列博客及源码地址:http://github.com/code4craft/jsoup-learning


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/328214.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

编程语言的发展趋势及未来方向(4):动态语言

我下面继续要讲的是动态语言&#xff0c;这也是我之前提到的三种趋势之一。 我还是尝试着去找到动态语言的定义&#xff0c;但是你也知道……一般地说&#xff0c;动态语言是一些不对编译时和运行时进行严格区分的语言。这不像一些静态编程语言&#xff0c;比如C#&#xff0c;你…

android实现个税计算器,个税计算器2021 - 个人所得税计算器2021 -

一、征收范围特许权使用费所得&#xff0c;是指个人提供专利权、商标权、著作权、非专利技术及其他特许权的使用权取得的所得&#xff1b;其中&#xff0c;提供著作权的使用权取得的所得&#xff0c;不包括稿酬所得。 作者将自己的文字作品手稿原件或者复印件公开拍卖(竞价)取得…

系统架构师考试1

系统架构师备考经验 2018年03月23日 17:42:27 hongyinanhai00 阅读数 2911 系统架构师备考经验 距2017年11月份架构考试结束已经快半年了&#xff0c;自成绩出来以后就打算分享一下自己的备考经验&#xff0c;无奈搞IT的时间经常不能自由安排&#xff0c;这不刚提完离职终于…

java生成验证码并进行验证

一实现思路使用BufferedImage用于在内存中存储生成的验证码图片使用Graphics来进行验证码图片的绘制&#xff0c;并将绘制在图片上的验证码存放到session中用于后续验证最后通过ImageIO将生成的图片进行输出通过页面提交的验证码和存放在session中的验证码对比来进行校验二、生…

Jsoup代码解读之五-parser(中)

转载自 Jsoup代码解读之五-parser(中)上一篇文章讲到了状态机和词法分析的基本知识&#xff0c;这一节我们来分析Jsoup是如何进行词法分析的。 代码结构 先介绍以下parser包里的主要类&#xff1a; ParserJsoup parser的入口facade&#xff0c;封装了常用的parse静态方法。可…

html5实现3d翻页效果,利用css3 3d transform制作超逼真翻书效果

本教程给大家带来一个非常有创意的翻书效果&#xff0c;使用的是css 3D transforms属性和css transitions属性。这里将给你展示两种不同的图书设计&#xff1a;精装书和平装书。这两种设计只需要简单的改变一些css样式、图片和其他一些小细节就可以完成。注意: 并不是所有的浏览…

在.NET Core中使用MEF

题记&#xff1a;微软的可托管扩展框架也移植到.NET Core上了。 可托管扩展框架&#xff08;Managed Extensibility Framework&#xff0c;MEF&#xff09;是微软为大型应用程序&#xff08;比如Visual Studio这样的东西&#xff09;提供的一个功能扩展框架&#xff0c;通过一个…

系统架构师考试2

关于系统架构设计师考试的经验及建议 2017年11月12日 20:25:36 zhaoenweiex 阅读数 3162 版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/zhaoenweiex/article/details/78514716 前言 软考为广大技术人员提供了系统架构设…

html5圆形旋转菜单js,jquery 圆形旋转图片滚动切换效果

这个效果比较特别&#xff0c;可爱&#xff0c;所以在外面网站没怎么看到过&#xff0c;有兴趣的朋友可以下载后自己使用。PS: 经过修改已经兼容大众浏览器。效果图:在线演示&#xff1a;http://demo.jb51.net/js/ImagesRotateScroll/index.htmlStep1. 创建HTMLStep2. 创建CSS#…

Jsoup代码解读之四-parser(上)

转载自 Jsoup代码解读之四-parser(上)作为Java世界最好的HTML 解析库&#xff0c;Jsoup的parser实现非常具有代表性。这部分也是Jsoup最复杂的部分&#xff0c;需要一些数据结构、状态机乃至编译器的知识。好在HTML语法不复杂&#xff0c;解析只是到DOM树为止&#xff0c;所以…

在Linux和Windows的Docker容器中运行ASP.NET Core

译者序&#xff1a;其实过去这周我都在研究这方面的内容&#xff0c;结果周末有事没有来得及总结为文章&#xff0c;Scott Hanselman就捷足先登了。那么我就来翻译一下这篇文章&#xff0c;让更多的中文读者看到。当然Scott遇到的坑我也遇到了。 不过首先&#xff0c;对于不熟悉…

java反射机制的原理与简单使用

一、 原理 简单的来说&#xff0c;反射机制其实就是指程序在运行的时候能够获取自身的信息。如果知道一个类的名称/或者它的一个实例对象&#xff0c; 就能把这个类的所有方法和变量的信息(方法名&#xff0c;变量名&#xff0c;方法&#xff0c;修饰符&#xff0c;类型&#x…

架构师考试3

软考系统设计架构师经验与教训分享 2017年08月01日 17:20:29 leixiang831257 阅读数 18558 系统架构设计师考试经验和教训分享 但愿你是计算机专业的学生&#xff0c;考这个证&#xff0c;有助于提升你的综合能力&#xff0c;但是如果想通过考这个证&#xff0c;就能拿几十万…

Jsoup代码解读之三-Document的输出

转载自 Jsoup代码解读之三-Document的输出Jsoup官方说明里&#xff0c;一个重要的功能就是***output tidy HTML***。这里我们看看Jsoup是如何输出HTML的。 HTML相关知识 分析代码前&#xff0c;我们不妨先想想&#xff0c;"tidy HTML"到底包括哪些东西&#xff1a;…

计算机网络协议和通信规则,计算机网络协议基本知识

计算机网络协议网络协议为计算机网络中进行数据交换而建立的规则、标准或约定的集合。例如&#xff0c;网络中一个微机用户和一个大型主机的操作员进行通信&#xff0c;由于这两个数据终端所用字符集不同&#xff0c;因此操作员所输入的命令彼此不认识。为了能进行通信&#xf…

微软开源P语言,实现安全的异步事件驱动编程

微软最近开源了P语言&#xff0c;致力于在Linux、macOS和Windows上编写安全的异步事件驱动程序。 微软将P描述为一种领域特定语言&#xff0c;对异步系统的组件间通信进行建模&#xff0c;例如嵌入式、网络或分布式系统。P程序是通过有限状态机&#xff08;finite state machin…

系统架构设计师考试4

架构师考试经验总结 2014年12月14日 11:35:52 langkailen 阅读数 7251 2011年11月中旬参加了系统架构设计师的考试&#xff0c;考试还算比较顺利&#xff0c;顺利通过了国家分数线&#xff0c;获得了资格证书。除去考试不说&#xff0c;在准备考试的这段时间里了解了一下架构设…

a卡 n卡 html5性能,a卡n卡天梯图_a卡n卡显卡性能对照表2020年5月

相信许多自己购买过显卡的用户都知道a卡和n卡&#xff0c;决定一款显卡的性能好坏主要是架构、流处理器、核心频率、显存带宽、显存位宽、显存容量等多种因素决定。但是从参数来看新手比较难看出一个显卡的好坏&#xff0c;最简单的就是看天梯图&#xff0c;下面我们就一起来看…

Jsoup代码解读之二-DOM相关对象

转载自 Jsoup代码解读之二-DOM相关对象之前在文章中说到&#xff0c;Jsoup使用了一套自己的DOM对象体系&#xff0c;和Java XML API互不兼容。这样做的好处是从XML的API里解脱出来&#xff0c;使得代码精炼了很多。这篇文章会说明Jsoup的DOM结构&#xff0c;DOM的遍历方式。在…

sql server 2012远程链接的方法及步骤

首先说下什么是sql server:(以下是应用某度某科的内容) SQL Server 是Microsoft 公司推出的关系型数据库管理系统。具有使用方便可伸缩性好与相关软件集成程度高等优点&#xff0c;可跨越从运行Microsoft Windows 98 的膝上型电脑到运行Microsoft Windows 2012 的大型多处理器的…