nutch mysql solr_Nutch2.1+mysql+solr3.6.1+中文网站抓取

1、mysql 数据库配置 linux mysql安装步骤省略。 创建数据库与表 [sql] view plaincopyprint? CREATE DATABASE nutch DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci; CREATE TABLE `webpage`( `id` varchar (767) CHARACTER SET latin1 NOT N

1、mysql 数据库配置

linux mysql安装步骤省略。

创建数据库与表

[sql]

view plaincopyprint?

CREATE DATABASE nutch DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci;

CREATE TABLE `webpage` (

`id` varchar(767) CHARACTER SET latin1 NOT NULL,

`headers` blob,

`text` mediumtext DEFAULT NULL,

`status` int(11) DEFAULT NULL,

`markers` blob,

`parseStatus` blob,

`modifiedTime` bigint(20) DEFAULT NULL,

`score` float DEFAULT NULL,

`typ` varchar(32) CHARACTER SET latin1 DEFAULT NULL,

`baseUrl` varchar(512) CHARACTER SET latin1 DEFAULT NULL,

`content` mediumblob,

`title` varchar(2048) DEFAULT NULL,

`reprUrl` varchar(512) CHARACTER SET latin1 DEFAULT NULL,

`fetchInterval` int(11) DEFAULT NULL,

`prevFetchTime` bigint(20) DEFAULT NULL,

`inlinks` mediumblob,

`prevSignature` blob,

`outlinks` mediumblob,

`fetchTime` bigint(20) DEFAULT NULL,

`retriesSinceFetch` int(11) DEFAULT NULL,

`protocolStatus` blob,

`signature` blob,

`metadata` blob,

PRIMARY KEY (`id`)

) ENGINE=InnoDB DEFAULT CHARSET=utf8;

2、安装nutch2.1A、 nutch下载地址:http://apache.etoak.com/nutch/2.1/apache-nutch-2.1-src.zip

下载完成后家压缩,

B、以下将nutch的根目录定位${APACHE_NUTCH_HOME}.

C、配置nutch对mysql的支持,修改${APACHE_NUTCH_HOME}/ivy/ivy.xml文件

将这行的注释取消default”/>

修改${APACHE_NUTCH_HOME}/conf/gora.properties文件,

注释默认存储配置

[html]

view plaincopyprint?

###############################

# Default SqlStore properties #

###############################

#gora.sqlstore.jdbc.driver=org.hsqldb.jdbc.JDBCDriver

#gora.sqlstore.jdbc.url=jdbc:hsqldb:hsql://localhost/nutchtest

#gora.sqlstore.jdbc.user=sa

#gora.sqlstore.jdbc.password=

取消以下代码注释,

###############################

# MySQL properties

################################

gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver

gora.sqlstore.jdbc.url=jdbc:mysql://localhost:3306/nutch?createDatabaseIfNotExist=true

gora.sqlstore.jdbc.user=xxxxx(mysql用户名)

gora.sqlstore.jdbc.password=xxxxx(mysql密码)

D、修改${APACHE_NUTCH_HOME}/conf/nutch-site.xml 加入如下代码:

[html]

view plaincopyprint?

http.agent.namename>

Your Nutch Spidervalue>

property>

http.accept.languagename>

ja-jp, en-us,en-gb,en;q=0.7,*;q=0.3value>

Value of the “Accept-Language” request header field.

This allows selecting non-English language as default one to retrieve.

It is a useful setting for search engines build for certain national group.

description>

property>

parser.character.encoding.defaultname>

utf-8value>

The character encoding to fall back to when no other information

is availabledescription>

property>

storage.data.store.classname>

org.apache.gora.sql.store.SqlStorevalue>

The Gora DataStore class for storing and retrieving data.

Currently the following stores are available: ….

description>

property>

E、使用ant编译 ${APACHE_NUTCH_HOME} 。

F、设置待抓取的网站

cd ${APACHE_NUTCH_HOME}/runtime/local

mkdir -p urls

echo 'http://nutch.apache.org/' > urls/seed.txt

G、执行爬行操作: bin/nutch crawl urls -depth 3 -topN 5

执行完在mysql中即可以查看到爬虫抓取的内容

3、安装solr,对nutch抓取的内容进行索引

(注意:参考资料中推荐使用solr4.0版本,4.0的两个版本我都试了,没有成功,所以替换为3.6.1版本)

solr下载地址:http://www.fayea.com/apache-mirror/lucene/solr/3.6.1/apache-solr-3.6.1.zip

A、解压缩下载包,

B、下载

http://nlp.solutions.asia/wp-content/uploads/2012/08/schema.xml替换${APACHE_SOLR_HOME}/example/solr/conf/schema.xml.

C、启动solr

cd ${APACHE_SOLR_HOME}/example

java -jar start.jar

D、在浏览器输入地址http://localhost:8983/solr 测试是否启动成功。

E、另起linux终端,输入如下命令,使solr对nutch抓取内容进行索引。

cd ${APACHE_NUTCH_HOME}/runtime/local/

bin/nutch solrindex http://127.0.0.1:8983/solr/ -reindex

4、测试

在浏览器输入

http://localhost:8983/solr ,看到如下界面:

test.jsp?url=http%3A%2F%2Fstatic.oschina.net%2Fuploads%2Fspace%2F2012%2F1011%2F140241_FzQU_734002.gif&refer=http%3A%2F%2Fblog.csdn.net%2Fjinyeweiyang%2Farticle%2Fdetails%2F10973803

在文本框中输入 content:nutch 点击查询,便可查处内容中包含nutch关键字的网页

本条技术文章来源于互联网,如果无意侵犯您的权益请点击此处反馈版权投诉

本文系统来源:php中文网

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/440873.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【计蒜客信息学模拟赛1月月赛 - D】Wish(dp计数,数位)

题干: 如果一个数大于等于 10且任意连续两位都是质数,那么就称之为 Wish 数。当然,第一个 Wish 数是 11。 比如 97,111,131,119 都是 Wish 数,而 12,136 则不是。 问第 N 个 Wish…

mysql8 授权远程登录_MySQL8 远程授权访问

在测试环境,想实现MySQL 8 数据库的远程访问授权。传统的方法已经不行,报1064错误GRANT ALL PRIVILEGES ON *.* TO root% IDENTIFIED BY 123456 WITH GRANT OPTION;ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that co…

【计蒜客信息学模拟赛1月月赛 - B】蒜头套圈圈(贪心,前缀最大值)

题干: 蒜头去嘉年华玩儿套圈圈,是这么玩儿的。有一些瓶口口径不同的啤酒瓶,瓶子里面有一些奖品。如果蒜头用手上的圈圈套中了啤酒瓶,那么奖品就归他了。 假设蒜头君无限精准,指哪儿打哪儿,并且蒜头了解到…

centos web 访问mysql_Centos7安装Web服务器--Mysql5.7.12安装

我是勤劳的搬运工……源码装了好多次Mysql,终于成功了……因为安装mysql需要对应的boost文件(必须是相应版本,不能高也不能低),所以,为了不再麻烦的搜索对应的boost文件,下载包含boost的Mysql包2.查看是否有编译器# gc…

【计蒜客 - 蓝桥训练】轻重搭配(贪心,STLset 或 二分)

题干: n 个同学去动物园参观,原本每人都需要买一张门票,但售票处推出了一个优惠活动,一个体重为 xx 的人可以和体重至少为 2x2x 配对,这样两人只需买一张票。现在给出了 nn 个人的体重,请你计算他们最少需…

phpstudy mysql5.1_linux下mysql5.1 和 5.7安装教程详解

本文主要和大家分享linux下mysql 5.1 和 5.7的安装教程,希望能帮助到大家。以下内容的操作系统为:centos 6.7yum安装mysql 5.1.73卸载系统自带的mysql执行以下命令查看是否有自带mysql:rpm -qa | grep mysql如果发现有输出结果,那么执行以下命令依次删除…

【牛客 - 368C】流星雨(概率dp,乘法逆元)

题干: 现在一共有n天,第i天如果有流星雨的话,会有wiwi颗流星雨。 第i天有流星雨的概率是pipi。 如果第一天有流星雨了,那么第二天有流星雨的可能性是p2Pp2P,否则是p2p2。相应的,如果第i−1 (i≥2)i−1 (…

mysql workbench 无法编辑_MySQL Workbench编辑表数据是只读的

14 个答案:答案 0 :(得分:60)我假设桌子有一把主键。首先尝试运行unlock tables命令以查看是否修复了它。如果所有其他方法都失败了,您可以更改表以创建具有自动增量的新主键列,并希望能够修复它。一旦完成,您应该能够毫无问题地删…

【计蒜客 - 蓝桥训练】炮台实验(数学期望,期望dp)

题干: 蒜头君在玩一个战争模拟游戏,他有高度为 1,2,3,\ldots ,n1,2,3,…,n 的炮台各一个,他需要把这 nn 个炮台从左往右排成一行,并且炮口都朝向右边。 在这个游戏中,所有炮台发射的炮弹会摧毁前方所有高度比自己低的…

mysql本身主从_Mysql主从复制

Mysql环境准备#下载Mysqlwget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm如果报错: -bash: wget: 未找到命令安装插件 yum -y install wget安装mysql-community-release-el7-5.noarch.rpmsudo rpm -ivh mysql-community-release-el7-5.noarch.rpm安装Mys…

【蓝桥杯官网试题 - 算法提高 】P0404(模拟)

题干: 计算一个无符号整数的阿尔法乘积。对于一个无符号整数x来说,它的阿尔法乘积是这样来计算的:如果x是一个个位数,那么它的阿尔法乘积就是它本身;否则的话,x的阿尔法乘积就等于它的各位非0的数字相乘所…

phison主控ps3111量产工具_从固态硬盘拆解看门道 深入解读闪存编号和主控容量...

一篇固态硬盘的评测是否有水平,不光是看测试跑分是否详细,更应有针对成绩的解读以及硬件拆解和结构上的分析。毕竟跑分大家都会跑,必须拿出其他人不知道的内存才能真正吸引读者。因为大多数固态硬盘拆解会失去保修,所以拆解是网友…

*【计蒜客 - 蓝桥训练】人以群分(二分 + dp)

题干: 某班有 nn 个同学,每个同学有一个外向程度 a_iai​。由于要进行某个活动,需要把他们分成若干个小组,每个小组的人数至少为 mm 人。不同外向程度的人在一个小组会产生不开心值,定义一个小组的不开心值为组内成员…

alot英文怎么读_【乐学】“原来如此”用英文怎么说?

英语中的“原来如此”则有几种不同的表达下面就让我们一起来看看吧!I seeI see 作为最地道的表达,使用起来准没错。这是来自《柯林斯词典》的释义:You can say "I see" to indicate that you understand what someone is telling y…

【牛客 - 318E】爱摸鱼的Dillonh(数学,暴力,细节)

题干: “我不做人啦,jojo!” “Dillonh起来回答问题!” “啊?”沉迷于jojo的Dillonh又一次上课摸鱼被老师抓到了,他慌忙地抬起头看着讲台上火冒三丈的老师。 “给你一个数n,现在要找到一个集…

特殊mac地址文档_Mac颜值秒杀Win10?五款神器让Win10化身macOS

微软在Win10上捣鼓已经不是一天两天了,可结果……还是难以令人满意,特别是不伦不类的UI!其实Win10的底子还是不错的,新技术用了不少,外观也比之前更有颜值,但……总感觉缺了点什么!有没有羡慕隔…

【hihocoder - offer编程练习赛60 A】hohahola(贪心,二分)

题干: 时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述 有一种叫作hohahola的饮料,售价是X元一瓶。小Hi非常喜欢这种饮料,但是他现在身无分文。 不过小Hi有N张优惠券,买hohahola时每瓶最多使用一张优惠券&#xff0c…

checkbox设置三种状态 qt_checkbox的三种状态处理

checkbox只有两种值:选中(checked)或未选中(unchecked)。它可以有任何值,但是表单提交时checkbox的值只能是checked或unchecked。它的默认值是unchecked,你可以在HTML中这样控制它:视觉上,checkbox有三种状态&#xff…

【hihocoder - offer编程练习赛60 B】最大顺子(双指针,思维)

题干: 时间限制:10000ms 单点时限:1000ms 内存限制:256MB 描述 你有N张卡片,每张卡片上写着一个正整数Ai,并且N张卡片上的整数各不相同。 此外,你还有M张百搭卡片,可以当作写着任意正整数的卡片。 一个“顺子…

drupal mysql_Drupal MySQL查询优化

我试图优化一个MySQL查询来加速Drupal视图。这些表是节点,term_node和term_data。节点有大约500k行,term_node大约800k,term_data大约300k。查询下方:SELECT SQL_NO_CACHE DISTINCT(node.nid) AS nidFROM drupal_node nodeLEFT JO…