Jsoup代码解读之四-parser(上)

转载自  Jsoup代码解读之四-parser(上)

作为Java世界最好的HTML 解析库,Jsoup的parser实现非常具有代表性。这部分也是Jsoup最复杂的部分,需要一些数据结构、状态机乃至编译器的知识。好在HTML语法不复杂,解析只是到DOM树为止,所以作为编译器入门倒是挺合适的。这一块不要指望囫囵吞枣,我们还是泡一杯咖啡,细细品味其中的奥妙吧。

基础知识

编译器

将计算机语言转化为另一种计算机语言(通常是更底层的语言,例如机器码、汇编、或者JVM字节码)的过程就叫做编译(compile)。编译器(Compiler)是计算机科学的一个重要领域,已经有很多年历史了,而最近各种通用语言层出不穷,加上跨语言编译的兴起、DSL概念的流行,都让编译器变成了一个很时髦的东西。

编译器领域相关有三本公认的经典书籍,龙书《Compilers: Principles, Techniques, and Tools 》,虎书《Modern Compiler Implementation in X (X表示各种语言)》,鲸书《Advanced Compiler Design and Implementation》。其中龙书是编译理论方面公认的不二之选,而后面两本则对实践更有指导意义。另外@装配脑袋有个很好的编译器入门系列博客:http://www.cnblogs.com/Ninputer/archive/2011/06/07/2074632.html

编译器的基本流程如下:

其中词法分析、语法分析、语义分析这部分又叫编译器的前端(front-end),而此后的中间代码生成直到目标生成、优化等属于编译器的后端(back-end)。编译器的前端技术已经很成熟了,也有yacc这样的工具来自动进行词法、语法分析(Java里也有一个类似的工具ANTLR),而后端技术更加复杂,也是目前编译器研究的重点。

说了这么多,回到咱们的HTML上来。HTML是一种声明式的语言,可以理解它的最终的输出是浏览器里图形化的页面,而并非可执行的目标语言,因此我将这里的Translate改为了Render。

在Jsoup(包括类似的HTML parser)里,只做了Lex(词法分析)、Parse(语法分析)两步,而HTML parse最终产出结果,就是DOM树。至于HTML的语义解析以及渲染,不妨看看携程UED团队的这篇文章:《浏览器是怎样工作的:渲染引擎,HTML解析》。

状态机

Jsoup的词法分析和语法分析都用到了状态机。状态机可以理解为一个特殊的程序模型,例如经常跟我们打交道的正则表达式就是用状态机实现的。

它由状态(state)和转移(transition)两部分构成。根据状态转移的可能性,状态机又分为DFA(确定有限状态机)和NFA(非确定有限状态自动机)。这里拿一个最简单的正则表达式"a[b]*"作为例子,我们先把它映射到一个状态机DFA,大概是这样子:

状态机本身是一个编程模型,这里我们尝试用程序去实现它,那么最直接的方式大概是这样:

<!-- lang: java -->
public void process(StringReader reader) throws StringReader.EOFException {char ch;switch (state) {case Init:ch = reader.read();if (ch == 'a') {state = State.AfterA;accum.append(ch);}break;case AfterA:...break;case AfterB:...break;case Accept:...break;}
}

这样写简单的状态机倒没有问题,但是复杂情况下就有点难受了。还有一种标准的状态机解法,先建立状态转移表,然后使用这个表建立状态机。这个方法的问题就是,只能做纯状态转移,无法在代码级别操作输入输出。

Jsoup里则使用了状态模式来实现状态机,初次看到时,确实让人眼前一亮。状态模式是设计模式的一种,它将状态和对应的行为绑定在一起。而在状态机的实现过程中,使用它来实现状态转移时的处理再合适不过了。

"a[b]*"的例子的状态模式实现如下,这里采用了与Jsoup相同的方式,用到了枚举来实现状态模式:

<!-- lang: java -->
public class StateModelABStateMachine implements ABStateMachine {State state;StringBuilder accum;enum State {Init {@Overridepublic void process(StateModelABStateMachine stateModelABStateMachine, StringReader reader) throws StringReader.EOFException {char ch = reader.read();if (ch == 'a') {stateModelABStateMachine.state = AfterA;stateModelABStateMachine.accum.append(ch);}}},Accept {...},AfterA {...},AfterB {...};public void process(StateModelABStateMachine stateModelABStateMachine, StringReader reader) throws StringReader.EOFException {}}public void process(StringReader reader) throws StringReader.EOFException {state.process(this, reader);}
}

PS:我在github上fork了一份Jsoup的代码,把这系列文章提交了上去,并且给一些代码增加了中文注释,有兴趣的可以看看https://github.com/code4craft/jsoup-learning。本文中提到的几种状态机的完整实现在这个仓库的https://github.com/code4craft/jsoup-learning/tree/master/src/main/java/us/codecraft/learning路径下。

下一篇文章将从Jsoup的词法分析器开始来讲状态机的使用。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/328204.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在Linux和Windows的Docker容器中运行ASP.NET Core

译者序&#xff1a;其实过去这周我都在研究这方面的内容&#xff0c;结果周末有事没有来得及总结为文章&#xff0c;Scott Hanselman就捷足先登了。那么我就来翻译一下这篇文章&#xff0c;让更多的中文读者看到。当然Scott遇到的坑我也遇到了。 不过首先&#xff0c;对于不熟悉…

java反射机制的原理与简单使用

一、 原理 简单的来说&#xff0c;反射机制其实就是指程序在运行的时候能够获取自身的信息。如果知道一个类的名称/或者它的一个实例对象&#xff0c; 就能把这个类的所有方法和变量的信息(方法名&#xff0c;变量名&#xff0c;方法&#xff0c;修饰符&#xff0c;类型&#x…

架构师考试3

软考系统设计架构师经验与教训分享 2017年08月01日 17:20:29 leixiang831257 阅读数 18558 系统架构设计师考试经验和教训分享 但愿你是计算机专业的学生&#xff0c;考这个证&#xff0c;有助于提升你的综合能力&#xff0c;但是如果想通过考这个证&#xff0c;就能拿几十万…

Jsoup代码解读之三-Document的输出

转载自 Jsoup代码解读之三-Document的输出Jsoup官方说明里&#xff0c;一个重要的功能就是***output tidy HTML***。这里我们看看Jsoup是如何输出HTML的。 HTML相关知识 分析代码前&#xff0c;我们不妨先想想&#xff0c;"tidy HTML"到底包括哪些东西&#xff1a;…

计算机网络协议和通信规则,计算机网络协议基本知识

计算机网络协议网络协议为计算机网络中进行数据交换而建立的规则、标准或约定的集合。例如&#xff0c;网络中一个微机用户和一个大型主机的操作员进行通信&#xff0c;由于这两个数据终端所用字符集不同&#xff0c;因此操作员所输入的命令彼此不认识。为了能进行通信&#xf…

微软开源P语言,实现安全的异步事件驱动编程

微软最近开源了P语言&#xff0c;致力于在Linux、macOS和Windows上编写安全的异步事件驱动程序。 微软将P描述为一种领域特定语言&#xff0c;对异步系统的组件间通信进行建模&#xff0c;例如嵌入式、网络或分布式系统。P程序是通过有限状态机&#xff08;finite state machin…

系统架构设计师考试4

架构师考试经验总结 2014年12月14日 11:35:52 langkailen 阅读数 7251 2011年11月中旬参加了系统架构设计师的考试&#xff0c;考试还算比较顺利&#xff0c;顺利通过了国家分数线&#xff0c;获得了资格证书。除去考试不说&#xff0c;在准备考试的这段时间里了解了一下架构设…

a卡 n卡 html5性能,a卡n卡天梯图_a卡n卡显卡性能对照表2020年5月

相信许多自己购买过显卡的用户都知道a卡和n卡&#xff0c;决定一款显卡的性能好坏主要是架构、流处理器、核心频率、显存带宽、显存位宽、显存容量等多种因素决定。但是从参数来看新手比较难看出一个显卡的好坏&#xff0c;最简单的就是看天梯图&#xff0c;下面我们就一起来看…

Jsoup代码解读之二-DOM相关对象

转载自 Jsoup代码解读之二-DOM相关对象之前在文章中说到&#xff0c;Jsoup使用了一套自己的DOM对象体系&#xff0c;和Java XML API互不兼容。这样做的好处是从XML的API里解脱出来&#xff0c;使得代码精炼了很多。这篇文章会说明Jsoup的DOM结构&#xff0c;DOM的遍历方式。在…

sql server 2012远程链接的方法及步骤

首先说下什么是sql server:(以下是应用某度某科的内容) SQL Server 是Microsoft 公司推出的关系型数据库管理系统。具有使用方便可伸缩性好与相关软件集成程度高等优点&#xff0c;可跨越从运行Microsoft Windows 98 的膝上型电脑到运行Microsoft Windows 2012 的大型多处理器的…

系统架构师考试5

https://download.csdn.net/download/u014484863/10041079 https://download.csdn.net/download/u014484863/10041079 下载首页 精品专辑 我的资源 上传资源赚积分 已下载 我的收藏 参与活动送会员hot 下载帮助 下载 > 考试认证 > 软考等考 > 系统架构师复习资料…

ASP.NET Core 性能对比评测(ASP.NET,Python,Java,NodeJS)

前言 性能是我们日常生活中经常接触到的一个词语&#xff0c;更好的性能意味着能给我们带来更好的用户体检。比如我们在购买手机、显卡、CPU等的时候&#xff0c;可能会更加的关注于这样指标&#xff0c;所以本篇就来做一个性能评测。 性能也一直是我们开发人员一直追求的一个目…

计算机三级网络技术题库第15套,第15套 上机操作题

一、基本操作题*********本题型共有5小题*********1. 将考生文件夹下的RDEV文件夹中的文件KING.MAP删除。2. 在考生文件夹下BEF文件夹中建立一个名为SEOG的新文件夹。3. 将考生文件夹下RM文件夹中的文件PALY.PRG复制到考生文件夹下BMP文件夹中。4. 将考生文件夹下TEED文件夹中的…

Jsoup代码解读之一-概述

转载自 Jsoup代码解读之一-概述今天看到一个用python写的抽取正文的东东&#xff0c;美滋滋的用Java实现了一番&#xff0c;放到了webmagic里&#xff0c;然后发现Jsoup里已经有了…觉得自己各种不靠谱啊&#xff01;算了&#xff0c;静下心来学学好东西吧&#xff01; Jsoup…

法在计算机课程中的应用,尝试教学法在中职《计算机应用基础》课程中的应用(原稿)...

《尝试教学法在中职《计算机应用基础》课程中的应用(原稿).doc》由会员分享&#xff0c;可免费在线阅读全文&#xff0c;更多与《尝试教学法在中职《计算机应用基础》课程中的应用(原稿)》相关文档资源请在帮帮文库(www.woc88.com)数亿文档库存里搜索。1、尝试练习,安排学生进行…

Visual Studio“15”进一步改善性能和易用性

随着Visual Studio“15”开发工作的继续&#xff0c;微软也在不断介绍着为了改善该产品执行速度和安装后体积所做的诸多努力。第5个技术预览版近日已发布&#xff0c;在这些方面也有了进一步提高。 在微软公司John Montgomery发布的新闻稿中&#xff0c;他通过一个视频对比了Ro…

JAVA缓存的实现

转载自 JAVA缓存的实现 缓存可分为二大类: 一、通过文件缓存,顾名思义文件缓存是指把数据存储在磁盘上&#xff0c;不管你是以XML格式&#xff0c;序列化文件DAT格式还是其它文件格式&#xff1b; 二、内存缓存&#xff0c;也就是实现一个类中静态Map,对这个Map进行常规的增删…

myeclipse 2016 ci3破解教程(含软件下载)

一、myeclipse简介&#xff1a; MyEclipse企业级工作平台&#xff08;MyEclipseEnterprise Workbench &#xff0c;简称MyEclipse&#xff09;是对EclipseIDE的扩 展&#xff0c;利用它我们可以在数据库和JavaEE的开发、发布以及应用程序服务器的整合方面极大的提高工作效 率。…

系统架构师考试6

系统架构设计师考试经验 2018年01月29日 15:23:46 大宝大宝吃饱睡好 阅读数 346 原文链接 1. 考试准备流程 考试报名地址 网站比较奇葩&#xff0c;需要IE或者360&#xff0c;chrome不行 1.1 报名 网站注册【大概9月份】填写报名信息上传照片【需要注意照片大小&#xff0c;…

计算机主机组成实验,计算机组成原理实验-运算器组成实验报告

计算机组成原理实验-运算器组成实验报告 曾国江—计算机组成原理实验报告 - 0 - 计算机组成原理课程实验报告9.3 运算器组成实验姓 名&#xff1a; 曾国江 学 号&#xff1a; 系 别&#xff1a; 计算机工程学院 班 级&#xff1a; 网络工程1班 指导老师&#xff1a; 完成时间&a…