scrapy知乎爬虫mysql存储项目_Scrapy爬虫框架第八讲【项目实战篇:知乎用户信息抓取】--本文参考静觅博主所写...

思路分析:

(1)选定起始人(即选择关注数和粉丝数较多的人--大V)

(2)获取该大V的个人信息

(3)获取关注列表用户信息

(4)获取粉丝列表用户信息

(5)重复(2)(3)(4)步实现全知乎用户爬取

实战演练:

(1)、创建项目:scrapy startproject zhijutest

(2)、创建爬虫:cd zhihutest -----scrapy genspider  zhihu www.zhihu.com

(3)、选取起始人(这里我选择了以下用户)

0f38fe6cf70a0abe16c62f77201ab717.png

我们可以看到他关注的人和关注他的人,这些内容是我们(3)(4)步需要获取的

(3)、更改settings.py

0269a40801bb9980d8cf72d2f400a894.png

代码分析:这里我们设置了不遵守robots协议

robots协议:网络爬虫协议,它用来告诉用户那些内容可以爬取,那些内容禁止爬取,一般我们运行爬虫项目,首先会访问网站的robots.txt页面,它告诉爬虫那些是你可以获取的内容,这里我们为了方便,即不遵守robots协议。

c72043994cf331c9e51a5442601290db.png

代码分析:这里我们设置了User-Agent和authorization字段(这是知乎对请求头的限制了,即反爬),而这里我们通过设置模拟了在没有登陆的前提下伪装成浏览器去请求知乎

(4)、页面初步分析

右击鼠标打开chrome开发者工具选项,并选中如下箭头所指,将鼠标放在黄色标记上,我们可以发现右侧加载出了一个ajax请求

d37860b670d22f4fb6714269d33539b1.png

单击该ajax请求,得到如下页面:我们可以看见黄色部分为每位用户的详细信息的url,它包含多个参数用来存储信息

cf4fa08961b60ee24cde712c85b89c79.png

此时再将页面下滑可以看到如下信息:

7c084c0f09ce8ffb7c5ff8741b8200b2.png

该字段为上面参数的字段详情(Query String Parameters,英文好的小伙伴应该一眼发现)

(5)、更改items.py

承接上面将页面点击左侧并翻页,可以看出右侧出现了新的Ajax请求:followees:......这就是他关注者信息,通过点击Preview我们获取了网页源代码,可以发现包含了每一页的用户信息,小伙伴们可以核对下,发现信息能匹配上,我们可以从中发现每页包含20条他的关注者信息,而黑框部分就是包含每一位用户详细信息的参数,我们通过它们来定义item.py(即爬什么???)

b7c029e5341184f39b66e88d742c7286.png

修改items.py如下:

65399604ed4b7e174de165885da0e558.png

(6)、更改zhihu.py

第一步:模块导入

1 #-*- coding: utf-8 -*-

2 importjson3

4 importscrapy5

6 from ..items importUserItem7

8

9 classZhihuSpider(scrapy.Spider):10 name = 'zhihu'

11 allowed_domains = ['zhihu.com']12 start_urls = ['http://zhihu.com/']13

14 #设定起始爬取人,这里我们通过观察发现与url_token字段有关

15 start_user = 'zhouyuan'

16

17 #选取起始爬取人的页面详情信息,这里我们传入了user和include参数方便对不同的用户进行爬取

18 user_url = 'https://www.zhihu.com/api/v4/members/{user}?include={include}'

19 #用户详情参数即包含在include后面的字段

20 user_query = 'allow_message,is_followed,is_following,is_org,is_blocking,employments,answer_count,follower_count,articles_count,gender,badge[?(type=best_answerer)].topics'

21

22 #这是他的关注者的url,这里包含了每位他的关注者的url,同样我们传入了user和include参数方便对不同用户进行爬取

23 follows_url = 'https://www.zhihu.com/api/v4/members/{user}/followees?include={include}&offset={offset}&limit={limit}'

24 #他的每位关注者详情参数,即包含在include后面的字段

25 follows_query = 'data[*].answer_count,articles_count,gender,follower_count,is_followed,is_following,badge[?(type=best_answerer)].topics'

26

27 #这是他的粉丝的url,这里包含了每位他的关注者的url,同样我们传入了user和include参数方便对不同用户进行爬取

28 followers_url = 'https://www.zhihu.com/api/v4/members/{user}/followees?include={include}&offset={offset}&limit={limit}'

29 #他的每位粉丝的详情参数,即包含在include后面的字段

30 followers_query = 'data[*].answer_count,articles_count,gender,follower_count,is_followed,is_following,badge[?(type=best_answerer)].topics'

31

32 #重新定义起始爬取点的url

33 defstart_requests(self):34 #这里我们传入了将选定的大V的详情页面的url,并指定了解析函数parseUser

35 yield scrapy.Request(self.user_url.format(user=self.start_user, include=self.user_query), callback=self.parseUser)36 #这里我们传入了将选定的大V他的关注者的详情页面的url,并指定了解析函数parseFollows

37 yield scrapy.Request(self.follows_url.format(user=self.start_user, include=self.follows_query, offset=0, limit=20), callback=self.parseFollows)38 #这里我们传入了将选定的大V的粉丝的详情页面的url,并指定了解析函数parseFollowers

39 yield scrapy.Request(self.followers_url.format(user=self.start_user, include=self.followers_query, offset=0, limit=20), callback=self.parseFollowers)40

41 #爬取每一位用户详情的页面解析函数

42 defparseUser(self, response):43 #这里页面上是json字符串类型我们使用json.loads()方法将其变为文本字符串格式

44 result =json.loads(response.text)45 item =UserItem()46

47 #这里我们遍历了items.py中定义的字段并判断每位用户的详情页中的keys是否包含该字段,如包含则获取

48 for field initem.fields:49 if field inresult.keys():50 item[field] =result.get(field)51 yielditem52 #定义回调函数,爬取他的关注者与粉丝的详细信息,实现层层迭代

53 yield scrapy.Request(self.follows_url.format(user=result.get('url_token'), include=self.follows_query, offset=0, limit=20), callback=self.parseFollows)54 yield scrapy.Request(self.followers_url.format(user=result.get('url_token'), include=self.followers_query, offset=0, limit=20), callback=self.parseFollowers)55

56 #他的关注者的页面解析函数

57 defparseFollows(self, response):58 results =json.loads(response.text)59 #判断data标签下是否含有获取的文本字段的keys

60 if 'data' inresults.keys():61 for result in results.get('data'):62 yield scrapy.Request(self.user_url.format(user=result.get('url_token'), include=self.user_query), callback=self.parseUser)63 #判断页面是否翻到了最后

64 if 'paging' in results.keys() and results.get('paging').get('is_end') ==False:65 next_page = results.get('paging').get('next')66 yield scrapy.Request(next_page, callback=self.parseFollows)67

68 #他的粉丝的页面解析函数

69 defparseFollowers(self, response):70 results =json.loads(response.text)71

72 if 'data' inresults.keys():73 for result in results.get('data'):74 yield scrapy.Request(self.user_url.format(user=result.get('url_token'), include=self.user_query), callback=self.parseUser)75

76 if 'paging' in results.keys() and results.get('paging').get('is_end') ==False:77 next_page = results.get('paging').get('next')78 yield scrapy.Request(next_page, callback=self.parseFollowers)

a744c8c1385de41d741fc875a9d335b3.png

我们可以看到当我们翻到了最后is_end字段变为了True,而next字段就是下一个页面的url

(7)、运行下程序,可以看见已经在爬取了

92ebe0137cbcf67fbddce0af1acede8b.png

(8)、将结果存入Mongodb数据库

重写pipelines.py

1 importpymongo2

3 classMongoPipeline(object):4

5 collection_name = 'user'

6

7 def __init__(self, mongo_uri, mongo_db):8 self.mongo_uri =mongo_uri9 self.mongo_db =mongo_db10

11 @classmethod12 deffrom_crawler(cls, crawler):13 returncls(14 mongo_uri=crawler.settings.get('MONGO_URI'),15 mongo_db=crawler.settings.get('MONGO_DATABASE')16 )17

18 defopen_spider(self, spider):19 self.client =pymongo.MongoClient(self.mongo_uri)20 self.db =self.client[self.mongo_db]21

22 defclose_spider(self, spider):23 self.client.close()24

25 defprocess_item(self, item, spider):26 self.db['user'].update({'url_token' :item['url_token']},{'$set':item},True)

代码分析:

我们创建了名为user的集合

重写了__init__方法指定了数据库的链接地址和数据库名称

并修改了工厂类函数(具体参见上讲ITEM PIPLELIEN用法)

打开数据库并插入数据并以url_token字段对重复数据执行了更新操作

最后我们关闭了数据库

再配置下settings.py

5c7351944e54f8edc310a99f25fea792.png

bf139a6cef98aac581ef5e627d2418fd.png

再次运行程序,可以看见我们的数据就到了数据库了

098200450cda4a235f8995c6f55337a6.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/262375.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

pyplot输出的绘图界面中文乱码的解决方案

解决办法很简单,明确设置并使用特定的中文字体即可。具体来说,分两步: 第一步:生成指定的字体属性对象。此对象名在下例中为fp。 import matplotlib.pyplot as plt from matplotlib.font_manager import FontProperties #注意路…

kali下生成web端后门

很多时候在***测试时选择web***害怕用的别人的马带有后门,这样自己的辛苦就要被别人不劳而获,很多时候我们都想拥有自己的马,那么这个时候你就应该使用kail来生成一个自己独特密码的web***了。Kali Linux自带有好几个web***生成工具&#xff…

童儿的故事(二)

回来的路上, 又看到昨天那个望桔的童儿。 “怎么,你还在胡思乱想?”我问他。 “我想,至少我可以望一望它。”顺势他把苹果搂的更紧。 得不到的时候也许会让一个人懂得珍惜, 即便他不懂得满足。 他喃喃道:“…

sql2008能否打开mysql数据库_SQL Server 2008通过LinkServer访问MySQL数据库

(中国软件网讯)怎样让SQL Server 2008数据库可以访问MySQL数据库的数据呢?其实这一实现的过程并不难,可以通过调用MySQL的ODBC驱动,在SQL Server中添加LinkServer的方式实现。本文我们就介绍了这一访问过程,现在我们就开始介绍&am…

素性测试的Miller-Rabin算法完全解析 (C语言实现、Python实现)

因为文中存在公式&#xff0c;只能用图片方式上传了&#xff01; 以下为C语言源代码&#xff1a; #include <stdio.h> typedef long long unsigned LLU; typedef int BOOL; #define TRUE 1 #define FALSE 0 BOOL isPrime(LLU n) { //这是传统的方法&#xff0c;用于与…

MongoDB源码阅读之ReplSet源码分析

1. ReplSet源码结构 rs_config.h replSet间同步设置的工具类 rs_member.h 心跳检测类和replSet成员状态的定义 rs_sync.h 同步数据类 rs.h 定义了几乎所有replSet相关的类&#xff08;Member:replSet中的节点成员&#xff0c; GhostSync&#xff1a;备份同步类&#xff0c;Rep…

C# 字符串性能

Written By Dr Herbie [2] Translated By Allen Lee Introduction 你在代码中处理字符串的方法可能会对性能产生令人吃惊的影响。程序中需要考虑两个由于使用字符串而产生的问题&#xff1a;临时字符串变量的使用和字符串连接。Background1.String是引用类型&#xff0c;在堆上…

手把手教你部署VSAN见证虚拟设备 (Cormac)

译者注&#xff1a;本文翻译自Cormac的博客&#xff0c;并未严格地逐字逐句的直译&#xff0c;如有谬误&#xff0c;万望见谅。原文见此http://cormachogan.com/2015/09/14/step-by-step-deployment-of-the-vsan-witness-appliance/现在开始在之前的帖子中我曾经介绍过见证虚拟…

mysql在哪儿查看表的代码_查看mysql数据库及表编码格式

转载来源&#xff1a;http://www.cnblogs.com/shootercheng/p/5836657.html一、查看MySQL数据库服务器和数据库MySQL字符集。二、查看MySQL数据表(table)的MySQL字符集。三、查看MySQL数据列(column)的MySQL字符集。1.查看数据库编码格式2.查看数据表的编码格式3.创建数据库时指…

PyCharm编程环境的中英文字体分别设置的好处多----一石三鸟地解决中文字体不一致、英文字体不涵盖中文字符、编程字体实用性兼顾美观性的三个问题

在编程环境&#xff08;例如Python的PyCharm&#xff09;中&#xff0c;我们希望编程环境的字体具有如下特性&#xff1a; &#xff08;1&#xff09;字体覆盖中文和英文字符。 &#xff08;2&#xff09;等宽字体&#xff0c;并且是TrueType字体&#xff0c;方便辨识代码中缩…

WordPress博客系统的安全

随着计算机网络的流行&#xff0c;越来越多的人开始创建自己的博客&#xff0c;论起博客系统&#xff0c;全球用的最多的博客系统就是wordpress&#xff08;以下简称WP&#xff09;。但是如果用过WP的人都应该知道&#xff0c;WP的站点想要做的好看&#xff0c;插件是必不可少的…

C/C++ 程序设计员应聘常见面试试题深入剖析

1.引言 本文的写作目的并不在于提供C/C程序员求职面试指导&#xff0c;而旨在从技术上分析面试题的内涵。文中的大多数面试题来自各大论坛&#xff0c;部分试题解答也参考了网友的意见。许多面试题看似简单&#xff0c;却需要深厚的基本功才能给出完美的解答。企业要求面试者写…

mysql为什么行数据库_关系数据表中的行称为什么?

在一个二维表中&#xff0c;水平方向的行称为元组&#xff0c;每一行是一个元组&#xff1b;元组对应表中的一个具体记录。数据元组也称为记录。一个数据表中的每一个记录均有一个惟一的编号(记录号)。一个记录也就是数据表中的一行。元组(tuple)是关系数据库中的基本概念&…

长截图或长图片如何按页面切分后打印或插入到Word文档中

现在用手机可以非常方便地将手机的任意页面&#xff08;禁止截图的App页面除外&#xff09;用截长屏的方式一次性将常常的页面内容截图下来&#xff0c;这些长页面通常是通常是聊天记录或各种文章等。 截图下来后&#xff0c;在手机或电脑中查看倒是不会有什么问题。但是&…

maven安装以及eclipse配置maven

http://jingyan.baidu.com/article/295430f136e8e00c7e0050b9.html 必须先下载并安装JDK&#xff0c;配置JDK的环境变量JAVA_HOME&#xff0c;否则maven将无法使用 eclipse安装maven插件后必须重新定位maven到本地maven目录 如下定位&#xff1a; 为了使得Eclipse中安装的Maven…

产品2

闹钟\拉链\拼图转载于:https://www.cnblogs.com/sode/archive/2012/10/22/2733640.html

Oracle分页存储过程

create or replace package JT_P_page istype type_cur is ref cursor; --定义游标变量用于返回记录集procedure Pagination (Pindex in number, --要显示的页数索引&#xff0c;从0开始 Psql in varchar2, --产生分页…

python中加入绝对路径_理解Python中的绝对路径和相对路径

本文介绍了Python中的绝对路劲和相对路径&#xff0c;分享给大家&#xff0c;也给自己留个笔记1、绝对路径 os.path.abspath("文件名")&#xff1a;显示的是一个文件的绝对路劲eg&#xff1a; >>> import os>>> os.chdir("E:\\PycharmProject…

ASP.NET 2.0与SQL Express 2005在迁移到Windows 2003时发生数据库为只读的错误

ASP.NET 2.0和SQL Server Express 2005结合进行网站开发时&#xff0c;在VS 2005中运行时没有任何问题。当网站发布在Win Server 2003时&#xff0c;就会出现数据库无法访问的错误&#xff0c;其错误提示通常为&#xff1a;Failed to update database "D:\WEBSITES\EduTec…