网页爬虫的设计与实现(Java版)

最近为了练手而且对网页爬虫也挺感兴趣,决定自己写一个网页爬虫程序。
首先看看爬虫都应该有哪些功能。

内容来自(http://www.ibm.com/developerworks/cn/java/j-lo-dyse1/index.html?ca=drs-)

网页收集的过程如同图的遍历,其中网页就作为图中的节点,而网页中的超链接则作为图中的边,通过某网页的超链接 得到其他网页的地址,从而可以进一步的进行网页收集;图的遍历分为广度优先和深度优先两种方法,网页的收集过程也是如此。综上,Spider 收集网页的过程如下:从初始 URL 集合获得目标网页地址,通过网络连接接收网页数据,将获得的网页数据添加到网页库中并且分析该网页中的其他 URL 链接,放入未访问 URL 集合用于网页收集。下图表示了这个过程:

图 3. Spider 工作流程

网页收集器 Gather

网页收集器通过一个 URL 来获取该 URL 对应的网页数据,其实现主要是利用 Java 中的 URLConnection 类来打开 URL 对应页面的网络连接,然后通过 I/O 流读取其中的数据,BufferedReader 提供读取数据的缓冲区提高数据读取的效率以及其下定义的 readLine() 行读取函数。代码如下 ( 省略了异常处理部分 ):

URL url = new URL(“http://www.xxx.com”); 
URLConnection conn = url.openConnection(); 
BufferedReader reader = new BufferedReader(new InputStreamReader(conn.getInputStream())); 
String line = null; while((line = reader.readLine()) != null)          document.append(line + "\n");

网页处理

收集到的单个网页,需要进行两种不同的处理,一种是放入网页库,作为后续处理的原始数据;另一种是被分析之后,抽取其中的 URL 连接,放入 URL 池等待对应网页的收集。

网页的保存需要按照一定的格式,以便以后数据的批量处理。这里介绍一种存储数据格式,该格式从北大天网的存储格式简化而来:

  • 网页库由若干记录组成,每个记录包含一条网页数据信息,记录的存放为顺序添加;
  • 一条记录由数据头、数据、空行组成,顺序为:头部 + 空行 + 数据 + 空行;
  • 头部由若干属性组成,有:版本号,日期,IP 地址,数据长度,按照属性名和属性值的方式排列,中间加冒号,每个属性占用一行;
  • 数据即为网页数据。

需要说明的是,添加数据收集日期的原因,由于许多网站的内容都是动态变化的,比如一些大型门户网站的首页内容,这就意味着如果不是当天爬取的网页数据,很可能发生数据过期的问题,所以需要添加日期信息加以识别。

URL 的提取分为两步,第一步是 URL 识别,第二步再进行 URL 的整理,分两步走主要是因为有些网站的链接是采用相对路径,如果不整理会产生错误。URL 的识别主要是通过正则表达式来匹配,过程首先设定一个字符串作为匹配的字符串模式,然后在 Pattern 中编译后即可使用 Matcher 类来进行相应字符串的匹配。实现代码如下:

public ArrayList<URL> urlDetector(String htmlDoc)
{ 
final String patternString = "<[a|A]\\s+href=([^>]*\\s*>)"; 
Pattern pattern = Pattern.compile(patternString,Pattern.CASE_INSENSITIVE); 
ArrayList<URL> allURLs = new ArrayList<URL>(); 
Matcher matcher = pattern.matcher(htmlDoc); 
String tempURL; //初次匹配到的url是形如:<a href="http://bbs.life.xxx.com.cn/" target="_blank"> 
//为此,需要进行下一步的处理,把真正的url抽取出来, 
//可以对于前两个"之间的部分进行记录得到url 
while(matcher.find()){      try {          tempURL = matcher.group();          tempURL = tempURL.substring(tempURL.indexOf("\"")+1);          if(!tempURL.contains("\"")) continue;          tempURL = tempURL.substring(0, tempURL.indexOf("\""));          }       catch (MalformedURLException e)          { e.printStackTrace(); }   } 
return allURLs; }

按照“<[a|A]\\s+href=([^>]*\\s*>)”这个正则表达式可以匹配出 URL 所在的整个标签,形如“<a href="http://bbs.life.xxx.com.cn/" target="_blank">”,所以在循环获得整个标签之后,需要进一步提取出真正的 URL,我们可以通过截取标签中前两个引号中间的内容来获得这段内容。如此之后,我们可以得到一个初步的属于该网页的 URL 集合。

接下来我们进行第二步操作,URL 的整理,即对之前获得的整个页面中 URL 集合进行筛选和整合。整合主要是针对网页地址是相对链接的部分,由于我们可以很容易的获得当前网页的 URL,所以,相对链接只需要在当前网页的 URL 上添加相对链接的字段即可组成完整的 URL,从而完成整合。另一方面,在页面中包含的全面 URL 中,有一些网页比如广告网页是我们不想爬取的,或者不重要的,这里我们主要针对于页面中的广告进行一个简单处理。一般网站的广告连接都有相应的显示表达, 比如连接中含有“ad”等表达时,可以将该链接的优先级降低,这样就可以一定程度的避免广告链接的爬取。

经过这两步操作时候,可以把该网页的收集到的 URL 放入 URL 池中,接下来我们处理爬虫的 URL 的派分问题。

Dispatcher 分配器

分配器管理 URL,负责保存着 URL 池并且在 Gather 取得某一个网页之后派分新的 URL,还要避免网页的重复收集。分配器采用设计模式中的单例模式编码,负责提供给 Gather 新的 URL,因为涉及到之后的多线程改写,所以单例模式显得尤为重要。

重复收集是指物理上存在的一个网页,在没有更新的前提下,被 Gather 重复访问,造成资源的浪费,主要原因是没有清楚的记录已经访问的 URL 而无法辨别。所以,Dispatcher 维护两个列表 ,“已访问表”,和“未访问表”。每个 URL 对应的页面被抓取之后,该 URL 放入已访问表中,而从该页面提取出来的 URL 则放入未访问表中;当 Gather 向 Dispatcher 请求 URL 的时候,先验证该 URL 是否在已访问表中,然后再给 Gather 进行作业。

Spider 启动多个 Gather 线程

现在 Internet 中的网页数量数以亿计,而单独的一个 Gather 来进行网页收集显然效率不足,所以我们需要利用多线程的方法来提高效率。Gather 的功能是收集网页,我们可以通过 Spider 类来开启多个 Gather 线程,从而达到多线程的目的。代码如下:

public void start() 
{ 
Dispatcher disp = Dispatcher.getInstance(); 
for(int i = 0; i < gatherNum; i++)
{     Thread gather = new Thread(new Gather(disp));     gather.start(); 
}
}
在开启线程之后,网页收集器开始作业的运作,并在一个作业完成之后,向 Dispatcher 申请下一个作业,因为有了多线程的 Gather,为了避免线程不安全,需要对 Dispatcher 进行互斥访问,在其函数之中添加 synchronized 关键词,从而达到线程的安全访问。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/352568.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

springboot entity date_SpringBoot+JWT实战(附源码)

SpringBoot集成JWT首先我们搭建好SpringBoot框架&#xff0c;SpringBoot环境准备就绪。接下来执行以下操作&#xff1a;1.引入依赖引入JWT依赖,由于是基于Java&#xff0c;所以需要的是java-jwt。<dependency><groupId>com.auth0</groupId><artifactId>…

六、springboot(三)配置双数据源

1、目录结构 2.jdbc.properties配置 #db hougespring.datasource.houge.jdbc-urljdbc:oracle:thin:192.168.0.120:1521:ORCLspring.datasource.houge.usernamehougespring.datasource.houge.passwordmonkeyspring.datasource.houge.driver-class-nameoracle.jdbc.driver.Oracle…

在您的构建过程中添加微基准测试

介绍 作为一个行业&#xff0c;我们正在采用更高的透明度和更可预测的构建过程&#xff0c;以减少构建软件的风险。 持续交付的核心原则之一是通过反馈循环收集反馈。 在Dev9中 &#xff0c;我们采用了与CD原则相一致的“ 先知道 ”原则&#xff0c;这意味着我们&#xff08;开…

【C/C++】Linux下使用system()函数一定要谨慎

曾经的曾经&#xff0c;被system()函数折磨过&#xff0c;之所以这样&#xff0c;是因为对system()函数了解不够深入。只是简单的知道用这个函数执行一个系统命令&#xff0c;这远远不够&#xff0c;它的返回值、它所执行命令的返回值以及命令执行失败原因如何定位&#xff0c;…

定时器和多线程的不同

最近在做项目的时候&#xff0c;遇到了视频采集图像时。使用定时器与或使用多线程有些纠结。原先用了定时器测试了&#xff0c;因为项目需要占用较多的cpu&#xff0c;所以很明显图像显示比较卡。 所以网上查了下。贴出来大家学习学习。 软件定时器和多线程在控制工程中有着非…

华为s8600手机驱动_只有手机才能快充?华为MateBook X的灵巧快充解放你的续航焦虑-华为 ——快科技(驱动之家旗下媒体)-...

充电&#xff0c;永远是数码科技圈必不可少的话题。然而&#xff0c;想要好好给设备充电太并不容易。每次外出&#xff0c;为了防止手机没电&#xff0c;大家的兜里必然要揣着一个大容量的充电宝才安心&#xff0c;这也是手机快充最初诞生的原因。快充技术指的是通过技术手段&a…

linux系统编程之进程(七):system()函数使用

一&#xff0c;system()理解 功能&#xff1a;system()函数调用“/bin/sh -c command”执行特定的命令&#xff0c;阻塞当前进程直到command命令执行完毕 原型&#xff1a; int system(const char *command); 返回值&#xff1a; 如果无法启动shell运行命令&#xff0c;system将…

Scrapy安装介绍

Scrapy安装介绍 一、 Scrapy简介 Scrapy is a fast high-level screen scraping and web crawling framework, used to crawl websites and extract structured data from their pages. It can be used for a wide range of purposes, from data mining to monitoring and aut…

数据库常用语句整理

数据库常用语句整理 --查询 select * from emp;--oracle 分页 SELECT * FROM (SELECT rownum AS rnum, e.*FROM emp eWHERE rownum < 10 ) WHERE rnum > 5;--复制表 CREATE TABLE new_table AS SELECT * FROM old_table; 参考资料 https://www.techonthenet.com/sql/tabl…

c语言n次方怎么输入_C语言实现斐波拉契数列

C语言实现斐波拉契数列教程怎么使用 C 语言实现计算斐波拉契数列的第 N 项的值&#xff1f;C语言实现斐波拉契数列详解背景知识斐波那契数列是一组第一位和第二位为 1&#xff0c;从第三位开始&#xff0c;后一位是前两位和的一组递增数列&#xff0c;像这样的&#xff1a;1、1…

junit 测试mvc_Spring MVC控制器JUnit测试

junit 测试mvcJUnit测试Spring MVC控制器并非易事 。 但是最近&#xff0c;一个新项目 &#xff08;即将在Spring推出&#xff09;提供了新的工具来简化此工作。 这篇文章说明了如何通过JUnit测试来测试一个简单的控制器。 该代码是JUnit Testing Spring Service和DAO&#xff…

python中if __name__ == '__main__': 的解析

当你打开一个.py文件时,经常会在代码的最下面看到if __name__ __main__:,现在就来介 绍一下它的作用. 模块是对象&#xff0c;并且所有的模块都有一个内置属性 __name__。一个模块的 __name__ 的值取决于您如何应用模块。如果 import 一个模块&#xff0c;那么模块__name__ 的…

LuoguP1268树的重量【构造/思维】By cellur925

题目传送门 Description 给你一个矩阵$M$&#xff0c;$M(i,j)$表示$i$到$j$的最短距离。定义树的重量为树上各边权之和&#xff0c;对于任意给出的合法矩阵$M$&#xff0c;已知它所能表示树的重量是唯一确定的。给出一个矩阵&#xff0c;求它所表示的树的重量。 Sol 这道题我想…

pydev插件安装方法

eclipse 版本&#xff1a; PYDEV:附件在本博客资源下载 下载附件后解压缩,将features和plugins个目录复制粘贴到eclipse相对应的目录下面&#xff0c;然后在启动Eclipse&#xff0c;在Help&#xff0d;》check for UPdates&#xff0c;然后弹出的界面即可看到pydev的插件。 …

将速度加快到自己的个人代码生成器中

Speedment是一个开放源代码工具箱 &#xff0c;可用于生成Java实体和管理器以与数据库进行通信。 如果您需要域模型的对象关系映射&#xff0c;那么这很好&#xff0c;但是在某些情况下&#xff0c;您可能希望使用数据库作为模板来生成完全不同的东西。 在本文中&#xff0c;我…

python3常用模块_Python3 常用模块1

os模块 通过os模块我们可以与操作系统交互, 控制文件和文件夹 对文件夹操作 # 判断是否为文件夹 os.path.isdir() # 创建文件夹 os.mkdir() # 删除文件夹 os.rmdir() # 列出文件夹内所有文件(返回列表) os.listdir() # 当前文件所在文件夹路径 os.getcwd() # 所在文件夹的路径 …

matlab求最短路径代码_【高等数学】复数,通往真理的最短路径

看图学数学&#xff01;可能是中国最好的高等数学的基础概念讲解&#xff0c;深入浅出、形象生动。没有高深的数学符号&#xff0c;只有你能懂的数学内容。在实数域中&#xff0c;连接两个真理的最短的路径是通过复数域----雅克阿达马现代数学家对复数的看法如斯&#xff0c;无…

怎么解决python Non-ASCII character错误

第一次接触Python&#xff0c;今天刚在Eclipse上安装完PyDev插件准备开始编程&#xff0c;用用简单例子进行调试竟然出现这样的错误&#xff0c; SyntaxError: Non-ASCII character \xef in file C:\Users\Administrator.NUY67O2SLHT6KM0\workspace\Hello World\scr\Hello.py …

Win7下VS2008破解方法

在Win7系统下&#xff0c;无法像xp下通过“控制面板”卸载的方法重新输入序列号来破解VS2008。 但可以通过以下几个步骤来破解&#xff1a; 1.首先需要安装VS2008&#xff0c;可以安装VS2008专业版90天试用版或VS2008团队版90天试用版都行。 VS2008专业版90天试用版下载地址&am…

五、Kafka 用户日志上报实时统计之应用概述

一、kafka 回顾 1.简介 Kafka 的业务 业务场景&#xff1a; 解除耦合  增加冗余  提高可扩展性  Buffering  异步通信2.介绍 Kafka 的应用场景 Push MessageWebsite Tracking日志收集中心3.实时统计平台搭建注意事项 实时统计平台搭建注意事项&#xff1a; HA特性核心文…