Jsoup代码解读之七-实现一个CSS Selector

转载自    Jsoup代码解读之七-实现一个CSS Selector

当当当!终于来到了Jsoup的特色:CSS Selector部分。selector也是我写的爬虫框架webmagic开发的一个重点。附上一张street fighter的图,希望以后webmagic也能挑战Jsoup!

select机制

Jsoup的select包里,类结构如下:

在最开始介绍Jsoup的时候,就已经说过NodeVisitorSelector了。Selector是select部分的对外facade,而NodeVisitor则是遍历树的底层API,CSS Selector也是根据NodeVisitor实现的遍历。

Jsoup的select核心是Evaluator。Selector所传递的表达式,会经过QueryParser,最终编译成一个EvaluatorEvaluator是一个抽象类,它只有一个方法:

<!-- lang: java -->
public abstract boolean matches(Element root, Element element);

注意这里传入了root,是为了某些情况下对树进行遍历时用的。

Evaluator的设计简洁明了,所有的Selector表达式单词都会编译到对应的Evaluator。例如#xx对应Id.xx对应Class[]对应Attribute。这里补充一下w3c的CSS Selector规范:http://www.w3.org/TR/CSS2/selector.html

当然,只靠这几个还不够,Jsoup还定义了CombiningEvaluator(对Evaluator进行And/Or组合),StructuralEvaluator(结合DOM树结构进行筛选)。

这里我们可能最关心的是,“div ul li”这样的父子结构是如何实现的。这个的实现方式在StructuralEvaluator.Parent中,贴一下代码了:

<!-- lang: java -->
static class Parent extends StructuralEvaluator {public Parent(Evaluator evaluator) {this.evaluator = evaluator;}public boolean matches(Element root, Element element) {if (root == element)return false;Element parent = element.parent();while (parent != root) {if (evaluator.matches(root, parent))return true;parent = parent.parent();}return false;}
}

这里Parent包含了一个evaluator属性,会根据这个evaluator去验证所有父节点。注意Parent是可以嵌套的,所以这个表达式"div ul li"最终会编译成And(Parent(And(Parent(Tag("div")),Tag("ul")),Tag("li")))这样的Evaluator组合。

select部分比想象的要简单,代码可读性也很高。经过了parser部分的研究,这部分应该算是驾轻就熟了。

关于webmagic的后续打算

webmagic是一个爬虫框架,它的Selector是用于抓取HTML中指定的文本,其机制和Jsoup的Evaluator非常像,只不过webmagic暂时是将Selector封装成较简单的API,而Evaluator直接上了表达式。之前也考虑过自己定制DSL来写一个HTML,现在看了Jsoup的源码,实现能力算是有了,但是引入DSL,实现只是一小部分,如何让DSL易写易懂才是难点。

其实看了Jsoup的源码,精细程度上比webmagic要好得多了,基本每个类都对应一个真实的概念抽象,可能以后会在这方面下点工夫。

下篇文章将讲最后一部分:白名单及HTML过滤机制。

最后依然附上这系列文章和代码的github地址:https://github.com/code4craft/jsoup-learning


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/328218.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

http1.1协议

HTTP/1.1协议 2018年01月04日 17:27:35 上杉绘梨衣- 阅读数 245 HTTP是hypertext transfer protocol(超文本传输协议)的简写&#xff0c;它是TCP/IP协议的一个应用层协议&#xff0c;用于定义WEB浏览器与WEB服务器之间数据交换的过程。 1.Http1.0和1.1 Http1.0:请求一次&…

ios刷android8.0,颤抖吧 iOS, Android 8.0正式发布!

原标题&#xff1a;颤抖吧 iOS&#xff0c; Android 8.0正式发布&#xff01;如果现在选一个最好用的手机操作系统&#xff0c;多数人还是认为 iOS。不过最近几年&#xff0c;苹果和安卓的竞争越来越激烈&#xff0c;苹果的优势也越来越小。眼看 Android 8.0 就要来了&#xff…

编程语言的发展趋势及未来方向(5):元编程

动态语言的另一个关键和有趣之处在于“元编程”。“元编程”实际上是“代码生成”的一种别称&#xff0c;其实在日常应用中我们也经常依赖这种做法。观察动态语言适合元编程的原因也是件十分有趣的事情。 在这个蓝框中是一段Ruby on Rails代码&#xff08;见上图&#xff09;。…

Jsoup代码解读之六-parser(下)

转载自 Jsoup代码解读之六-parser(下)最近生活上有点忙&#xff0c;女儿老是半夜不睡&#xff0c;精神状态也不是很好。工作上的事情也谈不上顺心&#xff0c;有很多想法但是没有几个被认可&#xff0c;有些事情也不是说代码写得好就行的。算了&#xff0c;还是端正态度&…

编程语言的发展趋势及未来方向(4):动态语言

我下面继续要讲的是动态语言&#xff0c;这也是我之前提到的三种趋势之一。 我还是尝试着去找到动态语言的定义&#xff0c;但是你也知道……一般地说&#xff0c;动态语言是一些不对编译时和运行时进行严格区分的语言。这不像一些静态编程语言&#xff0c;比如C#&#xff0c;你…

android实现个税计算器,个税计算器2021 - 个人所得税计算器2021 -

一、征收范围特许权使用费所得&#xff0c;是指个人提供专利权、商标权、著作权、非专利技术及其他特许权的使用权取得的所得&#xff1b;其中&#xff0c;提供著作权的使用权取得的所得&#xff0c;不包括稿酬所得。 作者将自己的文字作品手稿原件或者复印件公开拍卖(竞价)取得…

系统架构师考试1

系统架构师备考经验 2018年03月23日 17:42:27 hongyinanhai00 阅读数 2911 系统架构师备考经验 距2017年11月份架构考试结束已经快半年了&#xff0c;自成绩出来以后就打算分享一下自己的备考经验&#xff0c;无奈搞IT的时间经常不能自由安排&#xff0c;这不刚提完离职终于…

java生成验证码并进行验证

一实现思路使用BufferedImage用于在内存中存储生成的验证码图片使用Graphics来进行验证码图片的绘制&#xff0c;并将绘制在图片上的验证码存放到session中用于后续验证最后通过ImageIO将生成的图片进行输出通过页面提交的验证码和存放在session中的验证码对比来进行校验二、生…

Jsoup代码解读之五-parser(中)

转载自 Jsoup代码解读之五-parser(中)上一篇文章讲到了状态机和词法分析的基本知识&#xff0c;这一节我们来分析Jsoup是如何进行词法分析的。 代码结构 先介绍以下parser包里的主要类&#xff1a; ParserJsoup parser的入口facade&#xff0c;封装了常用的parse静态方法。可…

html5实现3d翻页效果,利用css3 3d transform制作超逼真翻书效果

本教程给大家带来一个非常有创意的翻书效果&#xff0c;使用的是css 3D transforms属性和css transitions属性。这里将给你展示两种不同的图书设计&#xff1a;精装书和平装书。这两种设计只需要简单的改变一些css样式、图片和其他一些小细节就可以完成。注意: 并不是所有的浏览…

在.NET Core中使用MEF

题记&#xff1a;微软的可托管扩展框架也移植到.NET Core上了。 可托管扩展框架&#xff08;Managed Extensibility Framework&#xff0c;MEF&#xff09;是微软为大型应用程序&#xff08;比如Visual Studio这样的东西&#xff09;提供的一个功能扩展框架&#xff0c;通过一个…

系统架构师考试2

关于系统架构设计师考试的经验及建议 2017年11月12日 20:25:36 zhaoenweiex 阅读数 3162 版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 https://blog.csdn.net/zhaoenweiex/article/details/78514716 前言 软考为广大技术人员提供了系统架构设…

html5圆形旋转菜单js,jquery 圆形旋转图片滚动切换效果

这个效果比较特别&#xff0c;可爱&#xff0c;所以在外面网站没怎么看到过&#xff0c;有兴趣的朋友可以下载后自己使用。PS: 经过修改已经兼容大众浏览器。效果图:在线演示&#xff1a;http://demo.jb51.net/js/ImagesRotateScroll/index.htmlStep1. 创建HTMLStep2. 创建CSS#…

Jsoup代码解读之四-parser(上)

转载自 Jsoup代码解读之四-parser(上)作为Java世界最好的HTML 解析库&#xff0c;Jsoup的parser实现非常具有代表性。这部分也是Jsoup最复杂的部分&#xff0c;需要一些数据结构、状态机乃至编译器的知识。好在HTML语法不复杂&#xff0c;解析只是到DOM树为止&#xff0c;所以…

在Linux和Windows的Docker容器中运行ASP.NET Core

译者序&#xff1a;其实过去这周我都在研究这方面的内容&#xff0c;结果周末有事没有来得及总结为文章&#xff0c;Scott Hanselman就捷足先登了。那么我就来翻译一下这篇文章&#xff0c;让更多的中文读者看到。当然Scott遇到的坑我也遇到了。 不过首先&#xff0c;对于不熟悉…

java反射机制的原理与简单使用

一、 原理 简单的来说&#xff0c;反射机制其实就是指程序在运行的时候能够获取自身的信息。如果知道一个类的名称/或者它的一个实例对象&#xff0c; 就能把这个类的所有方法和变量的信息(方法名&#xff0c;变量名&#xff0c;方法&#xff0c;修饰符&#xff0c;类型&#x…

架构师考试3

软考系统设计架构师经验与教训分享 2017年08月01日 17:20:29 leixiang831257 阅读数 18558 系统架构设计师考试经验和教训分享 但愿你是计算机专业的学生&#xff0c;考这个证&#xff0c;有助于提升你的综合能力&#xff0c;但是如果想通过考这个证&#xff0c;就能拿几十万…

Jsoup代码解读之三-Document的输出

转载自 Jsoup代码解读之三-Document的输出Jsoup官方说明里&#xff0c;一个重要的功能就是***output tidy HTML***。这里我们看看Jsoup是如何输出HTML的。 HTML相关知识 分析代码前&#xff0c;我们不妨先想想&#xff0c;"tidy HTML"到底包括哪些东西&#xff1a;…

计算机网络协议和通信规则,计算机网络协议基本知识

计算机网络协议网络协议为计算机网络中进行数据交换而建立的规则、标准或约定的集合。例如&#xff0c;网络中一个微机用户和一个大型主机的操作员进行通信&#xff0c;由于这两个数据终端所用字符集不同&#xff0c;因此操作员所输入的命令彼此不认识。为了能进行通信&#xf…

微软开源P语言,实现安全的异步事件驱动编程

微软最近开源了P语言&#xff0c;致力于在Linux、macOS和Windows上编写安全的异步事件驱动程序。 微软将P描述为一种领域特定语言&#xff0c;对异步系统的组件间通信进行建模&#xff0c;例如嵌入式、网络或分布式系统。P程序是通过有限状态机&#xff08;finite state machin…