网络爬虫--19.【Scrapy-Redis实战】分布式爬虫爬取房天下--环境准备

文章目录

  • 0. 思路
  • 一. 虚拟机Ubuntu0中安装Redis
  • 二. 虚拟机Ubuntu1中安装Redis
  • 三. Windows服务器上安装Redis
  • 四. 安装cmder
  • 五. 安装RedisDesktopManager
  • 六. 修改Windows中的配置文件redis.windows.conf
  • 七. Ubuntu连接Windows上 的Redis服务器
  • -------------------------------------------------------------------------
  • 八.Windows上创建虚拟环境并安装Scrapy
  • 九.Ubuntu上创建虚拟环境并安装Scrapy

0. 思路

准备三台服务器,分别是Windows、Ubuntu1、Ubuntu2;

其中Windows服务器作为分布式爬虫的Redis服务器;

Ubuntu1和Ubuntu2作为分布式爬虫的爬虫服务器。

一. 虚拟机Ubuntu0中安装Redis

安装:sudo apt-get install redis-server

卸载:sudo apt-get purge --auto-remove redis-server

启动:sudo service redis-server start

查看:ps aux|grep redis

停止:sudo service redis-server stop

二. 虚拟机Ubuntu1中安装Redis

同上。

三. Windows服务器上安装Redis

1.首先安装Redis,安装教程:https://www.runoob.com/redis/redis-install.html

2.启动Redis服务:(切换至Redis安装目录中)
redis-server.exe redis.windows.conf

若报错,按步骤执行以下命令:
redis-cli.exe
shutdown
exit
redis-server.exe redis.windows.conf

3.启动Redis客户端
redis-cli.exe

输入测试数据:
set username fanxindong

get username

在这里插入图片描述

四. 安装cmder

安装教程及配置:https://www.jianshu.com/p/5b7c985240a7

五. 安装RedisDesktopManager

安装教程及配置:https://www.jb51.net/softs/669908.html

安装后连接Redis,查看测试数据。
在这里插入图片描述

六. 修改Windows中的配置文件redis.windows.conf

打开Windows中Redis的配置文件redis.windows.conf

将bind后的ip地址更改为windows 的ip地址;

这里为了爬虫服务器连接方便,更改为0.0.0.0

在这里插入图片描述

七. Ubuntu连接Windows上 的Redis服务器

在Ubuntu服务器输入以下指令:

redis-cli -h 172.20.20.2 -p 6379

其中172.20.20.2为windows的服务器ip地址。

查看测试数据:
在这里插入图片描述

-------------------------------------------------------------------------

八.Windows上创建虚拟环境并安装Scrapy

首先安装 virtualenv,打开命令行工具,输入下面的命令即可安装 virtualenv:

pip install virtualenv

安装成功后就可以开始创建虚拟环境,指定一个你喜欢的目录,virtualenv 会把这个新的虚拟环境装到你指定目录下。例如我把它装到 C:\Users\fxd.virtualenvs\ 目录下,并将虚拟环境命名为 sipder_env(也可以取任何你喜欢的名字)。在命令栏运行如下命令:

virtualenv C:\Users\fxd\.virtualenvs\sipder_env

虚拟环境已经创建好了,我们需要激活这个环境,进入到刚才创建的虚拟环境的根目录,运行 Scripts 目录下的 activate 程序激活它:

cd C:\Users\fxd\.virtualenvs\sipder_env
.\Scripts\activate

可以看到命令提示符前面多了 (sipder_env),说明我们已经成功激活了虚拟环境,接下来就可以开始安装 Scrapy了。

使用豆瓣的镜像源安装:

pip install Scrapy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

Scrapy中文文档:https://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html

九.Ubuntu上创建虚拟环境并安装Scrapy

安装virtualenv:

pip install virtualenv

创建虚拟环境并自动进进入:

mkvirtualenv -p /usr/bin/python3 spider_env

退出虚拟环境:

deactivate

再次进入虚拟环境的激活指令:

source ./bin/activate

接下来安装Scrapy,首先安装依赖:

sudo apt-get install build-essential python3-dev libssl-dev libffi-dev libxml2 libxml2-dev libxslt1-dev zlib1g-dev

安装scrapy:

pip install Scrapy

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/451975.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开发人员,请爱护你的身体

最近一周身体极度不适,口腔溃疡、嗓子痛、感冒咳嗽、发烧,统统来了一个遍,非常痛苦。所以最近一直关注有关于软件开发人员的身体健康问题的网站、文章。 看了许多文章,在结合自己在这一周之内痛苦的感受,所以才写这样…

tkinter中scale拖拉改变值控件(十一)

scale拖拉改变值控件 使用户通过拖拽改变值 简单的实现: 1 import tkinter2 3 wuya tkinter.Tk() 4 wuya.title("wuya") 5 wuya.geometry("300x2001020") 6 7 8 # 创建对象 9 scale1 tkinter.Scale(wuya, from_0, to100) 10 scale1.pac…

vue+elementUI开发实践问题总结

最近公司项目采用vue,实行前后端分离开发,采用element-ui框架,对于项目中遇到的问题进行记录,便于日后查询。 vueelementui怎样点击table中的单元格触发事件?官方文档是采用的cell-click方式。实际项目中需要在不同的t…

Socket的getInputStream()方法

Socket的getInputStream()方法可以获得网络连接输入,同时返回一个InputStream实例 。

计算机图形学理论(4):缓冲区

本系列根据国外一个图形小哥的讲解为本,整合互联网的一些资料,结合自己的一些理解。 什么是缓冲区? 缓冲区是保存某些数据的临时存储空间。 为什么我们需要缓冲区?原因很简单,当数据量很大时,因为计算机无…

解决:Every derived table must have its own alias

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 报错: com.mysql.jdbc.exceptions.jdbc4.MySQLSyntaxErrorException: Every derived table must have its own alias 解决&…

网络爬虫--20.【Scrapy-Redis实战】分布式爬虫获取房天下--代码实现

文章目录一. 案例介绍二.创建项目三. settings.py配置四. 详细代码五. 部署1. windows环境下生成requirements.txt文件2. xshell连接ubuntu服务器并安装依赖环境3. 修改部分代码4. 上传代码至服务器并运行一. 案例介绍 爬取房天下(https://www1.fang.com/&#xff…

同一台电脑安装python2python3

【安装之前,先了解一下概念】 python是什么? Python是一种面向对象的解释型计算机程序设计语言,由荷兰人Guido van Rossum于1989年发明,第一个公开发行版发行于1991年。 Python是纯粹的自由软件, 源代码和解释器CPytho…

程序员的常见健康问题

其实这些问题不仅见于程序员,其他长期经常坐在电脑前的职场人士(比如:网络编辑、站长等),都会有其中的某些健康问题。希望从事这些行业的朋友,对自己的健康问题,予以重视。以下是全文。 我最近…

Java中BufferedReader和InputStreamReader

BufferedReader 类BufferedReader 由Reader类扩展而来,提供通用的缓冲方式文本读取,而且提供了很实用的readLine,读取一个文本行,从字符输入流中读取文本,缓冲各个字符,从而提供字符、数组和行的高效读取。…

网络爬虫--21.Scrapy知识点总结

文章目录一. Scrapy简介二. Scrapy架构图三. Scrapy框架模块功能四. 安装和文档五. 创建项目六. 创建爬虫一. Scrapy简介 二. Scrapy架构图 三. Scrapy框架模块功能 四. 安装和文档 中文文档:https://scrapy-chs.readthedocs.io/zh_CN/latest/intro/tutorial.html …

Spring 定时任务的几种实现

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 近日项目开发中需要执行一些定时任务,比如需要在每天凌晨时候,分析一次前一天的日志信息,借此机会整…

trie树(字典树)

trie树学习 学习trie树 转载于:https://www.cnblogs.com/cjoierljl/p/9317023.html

Vue 教程第四篇—— Vue 实例化时基本属性

实例元素 el 实例元素指的是 Vue 实例化时编译的容器元素&#xff0c;或者说是 Vue 作用的元素容器 <div id"app"></div> var vm new Vue({el: #app}) 也可以为实例元素指定其它选择器 <div class"app"></div> var vm new Vue({…

Ubuntu将在明年推出平板及手机系统

4月26日下午消息&#xff0c;知名Linux厂商Canonical今天正式发布Ubuntu 12.04版开源操作系统。Ubuntu中国首席代表于立强透露&#xff0c;针对平板电脑的Ubuntu操作系统将在明年推出。 Ubuntu 12.04版开源操作系统发布 Ubuntu操作系统是一款开源操作系统&#xff0c;主要与OE…

scrapy框架异常--no more duplicates will be shown (see DUPEFILTER_DEBUG to show all duplicates)

解决方法&#xff1a; https://blog.csdn.net/qq_40176258/article/details/86527568 https://blog.csdn.net/weixin_39946931/article/details/88390797 谢谢博主分享&#xff01;

【BZOJ3590】[Snoi2013]Quare 状压DP

题解&#xff1a; 一道比较水的题 但这个测试数据极弱我也不知道我的代码正确性是不是有保证 构成一个边双联通 可以由两个有一个公共点的边双联通或者一个边双加一条链构成 所以我们需要要预处理出所有环 令f[i][j][k]表示起点为i&#xff0c;终点为j&#xff0c;经过点的状态…

java swing简介

UI 组件简介 在开始学习 Swing 之前&#xff0c;必须回答针对真正初学者的一个问题&#xff1a;什么是 UI&#xff1f;初学者的答案是“用户界面”。但是因为本教程的目标是要保证您不再只是个初学者&#xff0c;所以我们需要比这个定义更高级的定义。 所以&#xff0c;我再次…

定时任务 cron 表达式详解

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 &#xff08;Spring定时任务的几种实现&#xff1a;见博客另一页&#xff1a;http://blog.csdn.net/jiangyu1013/article/details/54405…