Jsoup代码解读之五-parser(中)

转载自    Jsoup代码解读之五-parser(中)

上一篇文章讲到了状态机和词法分析的基本知识,这一节我们来分析Jsoup是如何进行词法分析的。

代码结构

先介绍以下parser包里的主要类:

  • Parser

    Jsoup parser的入口facade,封装了常用的parse静态方法。可以设置maxErrors,用于收集错误记录,默认是0,即不收集。与之相关的类有ParseError,ParseErrorList。基于这个功能,我写了一个PageErrorChecker来对页面做语法检查,并输出语法错误。

  • Token

    保存单个的词法分析结果。Token是一个抽象类,它的实现有Doctype,StartTag,EndTag,Comment,Character,EOF6种,对应6种词法类型。

  • Tokeniser

    保存词法分析过程的状态及结果。比较重要的两个字段是stateemitPending,前者保存状态,后者保存输出。其次还有tagPending/doctypePending/commentPending,保存还没有填充完整的Token。

  • CharacterReader

    对读取字符的逻辑的封装,用于Tokenize时候的字符输入。CharacterReader包含了类似NIO里ByteBuffer的consume()unconsume()mark()rewindToMark(),还有高级的consumeTo()这样的用法。

  • TokeniserState

    用枚举实现的词法分析状态机。

  • HtmlTreeBuilder

    语法分析,通过token构建DOM树的类。

  • HtmlTreeBuilderState

    语法分析状态机。

  • TokenQueue

    虽然披了个Token的马甲,其实是在query的时候用到,留到select部分再讲。

词法分析状态机

现在我们来讲讲HTML的词法分析过程。这里借用一下http://ued.ctrip.com/blog/?p=3295里的图,图中描述了一个Tag标签的状态转移过程,

这里忽略了HTML注释、实体以及属性,只保留基本的开始/结束标签,例如下面的HTML:

<!-- lang: html -->
<div>test</div>

Jsoup里词法分析比较复杂,我从里面抽取出了对应的部分,就成了我们的miniSoupLexer(这里省略了部分代码,完整代码可以看这里MiniSoupTokeniserState):

<!-- lang: java -->
enum MiniSoupTokeniserState implements ITokeniserState {/*** 什么层级都没有的状态* ⬇* <div>test</div>*      ⬇* <div>test</div>*/Data {// in data state, gather characters until a character reference or tag is foundpublic void read(Tokeniser t, CharacterReader r) {switch (r.current()) {case '<':t.advanceTransition(TagOpen);break;case eof:t.emit(new Token.EOF());break;default:String data = r.consumeToAny('&', '<', nullChar);t.emit(data);break;}}},/*** ⬇* <div>test</div>*/TagOpen {...},/***           ⬇* <div>test</div>*/EndTagOpen {...},/***  ⬇* <div>test</div>*/TagName {...};}

参考这个程序,可以看到Jsoup的词法分析的大致思路。分析器本身的编写是比较繁琐的过程,涉及属性值(区分单双引号)、DocType、注释、HTML实体,以及一些错误情况。不过了解了其思路,代码实现也是按部就班的过程。

下一节开始介绍语法分析部分。

最后还是附上我的Jsoup解读系列文章及代码地址:

https://github.com/code4craft/jsoup-learning


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/328209.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

html5实现3d翻页效果,利用css3 3d transform制作超逼真翻书效果

本教程给大家带来一个非常有创意的翻书效果&#xff0c;使用的是css 3D transforms属性和css transitions属性。这里将给你展示两种不同的图书设计&#xff1a;精装书和平装书。这两种设计只需要简单的改变一些css样式、图片和其他一些小细节就可以完成。注意: 并不是所有的浏览…

在.NET Core中使用MEF

题记&#xff1a;微软的可托管扩展框架也移植到.NET Core上了。 可托管扩展框架&#xff08;Managed Extensibility Framework&#xff0c;MEF&#xff09;是微软为大型应用程序&#xff08;比如Visual Studio这样的东西&#xff09;提供的一个功能扩展框架&#xff0c;通过一个…

系统架构师考试2

关于系统架构设计师考试的经验及建议 2017年11月12日 20:25:36 zhaoenweiex 阅读数 3162 版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/zhaoenweiex/article/details/78514716 前言 软考为广大技术人员提供了系统架构设…

html5圆形旋转菜单js,jquery 圆形旋转图片滚动切换效果

这个效果比较特别&#xff0c;可爱&#xff0c;所以在外面网站没怎么看到过&#xff0c;有兴趣的朋友可以下载后自己使用。PS: 经过修改已经兼容大众浏览器。效果图:在线演示&#xff1a;http://demo.jb51.net/js/ImagesRotateScroll/index.htmlStep1. 创建HTMLStep2. 创建CSS#…

Jsoup代码解读之四-parser(上)

转载自 Jsoup代码解读之四-parser(上)作为Java世界最好的HTML 解析库&#xff0c;Jsoup的parser实现非常具有代表性。这部分也是Jsoup最复杂的部分&#xff0c;需要一些数据结构、状态机乃至编译器的知识。好在HTML语法不复杂&#xff0c;解析只是到DOM树为止&#xff0c;所以…

在Linux和Windows的Docker容器中运行ASP.NET Core

译者序&#xff1a;其实过去这周我都在研究这方面的内容&#xff0c;结果周末有事没有来得及总结为文章&#xff0c;Scott Hanselman就捷足先登了。那么我就来翻译一下这篇文章&#xff0c;让更多的中文读者看到。当然Scott遇到的坑我也遇到了。 不过首先&#xff0c;对于不熟悉…

java反射机制的原理与简单使用

一、 原理 简单的来说&#xff0c;反射机制其实就是指程序在运行的时候能够获取自身的信息。如果知道一个类的名称/或者它的一个实例对象&#xff0c; 就能把这个类的所有方法和变量的信息(方法名&#xff0c;变量名&#xff0c;方法&#xff0c;修饰符&#xff0c;类型&#x…

架构师考试3

软考系统设计架构师经验与教训分享 2017年08月01日 17:20:29 leixiang831257 阅读数 18558 系统架构设计师考试经验和教训分享 但愿你是计算机专业的学生&#xff0c;考这个证&#xff0c;有助于提升你的综合能力&#xff0c;但是如果想通过考这个证&#xff0c;就能拿几十万…

Jsoup代码解读之三-Document的输出

转载自 Jsoup代码解读之三-Document的输出Jsoup官方说明里&#xff0c;一个重要的功能就是***output tidy HTML***。这里我们看看Jsoup是如何输出HTML的。 HTML相关知识 分析代码前&#xff0c;我们不妨先想想&#xff0c;"tidy HTML"到底包括哪些东西&#xff1a;…

计算机网络协议和通信规则,计算机网络协议基本知识

计算机网络协议网络协议为计算机网络中进行数据交换而建立的规则、标准或约定的集合。例如&#xff0c;网络中一个微机用户和一个大型主机的操作员进行通信&#xff0c;由于这两个数据终端所用字符集不同&#xff0c;因此操作员所输入的命令彼此不认识。为了能进行通信&#xf…

微软开源P语言,实现安全的异步事件驱动编程

微软最近开源了P语言&#xff0c;致力于在Linux、macOS和Windows上编写安全的异步事件驱动程序。 微软将P描述为一种领域特定语言&#xff0c;对异步系统的组件间通信进行建模&#xff0c;例如嵌入式、网络或分布式系统。P程序是通过有限状态机&#xff08;finite state machin…

系统架构设计师考试4

架构师考试经验总结 2014年12月14日 11:35:52 langkailen 阅读数 7251 2011年11月中旬参加了系统架构设计师的考试&#xff0c;考试还算比较顺利&#xff0c;顺利通过了国家分数线&#xff0c;获得了资格证书。除去考试不说&#xff0c;在准备考试的这段时间里了解了一下架构设…

a卡 n卡 html5性能,a卡n卡天梯图_a卡n卡显卡性能对照表2020年5月

相信许多自己购买过显卡的用户都知道a卡和n卡&#xff0c;决定一款显卡的性能好坏主要是架构、流处理器、核心频率、显存带宽、显存位宽、显存容量等多种因素决定。但是从参数来看新手比较难看出一个显卡的好坏&#xff0c;最简单的就是看天梯图&#xff0c;下面我们就一起来看…

Jsoup代码解读之二-DOM相关对象

转载自 Jsoup代码解读之二-DOM相关对象之前在文章中说到&#xff0c;Jsoup使用了一套自己的DOM对象体系&#xff0c;和Java XML API互不兼容。这样做的好处是从XML的API里解脱出来&#xff0c;使得代码精炼了很多。这篇文章会说明Jsoup的DOM结构&#xff0c;DOM的遍历方式。在…

sql server 2012远程链接的方法及步骤

首先说下什么是sql server:(以下是应用某度某科的内容) SQL Server 是Microsoft 公司推出的关系型数据库管理系统。具有使用方便可伸缩性好与相关软件集成程度高等优点&#xff0c;可跨越从运行Microsoft Windows 98 的膝上型电脑到运行Microsoft Windows 2012 的大型多处理器的…

系统架构师考试5

https://download.csdn.net/download/u014484863/10041079 https://download.csdn.net/download/u014484863/10041079 下载首页 精品专辑 我的资源 上传资源赚积分 已下载 我的收藏 参与活动送会员hot 下载帮助 下载 > 考试认证 > 软考等考 > 系统架构师复习资料…

ASP.NET Core 性能对比评测(ASP.NET,Python,Java,NodeJS)

前言 性能是我们日常生活中经常接触到的一个词语&#xff0c;更好的性能意味着能给我们带来更好的用户体检。比如我们在购买手机、显卡、CPU等的时候&#xff0c;可能会更加的关注于这样指标&#xff0c;所以本篇就来做一个性能评测。 性能也一直是我们开发人员一直追求的一个目…

计算机三级网络技术题库第15套,第15套 上机操作题

一、基本操作题*********本题型共有5小题*********1. 将考生文件夹下的RDEV文件夹中的文件KING.MAP删除。2. 在考生文件夹下BEF文件夹中建立一个名为SEOG的新文件夹。3. 将考生文件夹下RM文件夹中的文件PALY.PRG复制到考生文件夹下BMP文件夹中。4. 将考生文件夹下TEED文件夹中的…

Jsoup代码解读之一-概述

转载自 Jsoup代码解读之一-概述今天看到一个用python写的抽取正文的东东&#xff0c;美滋滋的用Java实现了一番&#xff0c;放到了webmagic里&#xff0c;然后发现Jsoup里已经有了…觉得自己各种不靠谱啊&#xff01;算了&#xff0c;静下心来学学好东西吧&#xff01; Jsoup…

法在计算机课程中的应用,尝试教学法在中职《计算机应用基础》课程中的应用(原稿)...

《尝试教学法在中职《计算机应用基础》课程中的应用(原稿).doc》由会员分享&#xff0c;可免费在线阅读全文&#xff0c;更多与《尝试教学法在中职《计算机应用基础》课程中的应用(原稿)》相关文档资源请在帮帮文库(www.woc88.com)数亿文档库存里搜索。1、尝试练习,安排学生进行…