复制url直接能跳过验证_python 爬虫如何突破登录验证

我用 python 做爬虫爬过不少数据，比如在 google play 爬应用信息；在 instragram, 500px 爬图片；当然爬虫的作用不止于此，比如定时去某个网站签到，妈妈再也不用担心我忘记签到了

这些网站支持游客访问，但要访问特定内容，比如你收藏的图片，或者要签到，那前提是要登录。

现在的网站登录验证是越来越复杂了，且不说那些真人都挠头的验证码，就算是不需要验证码的网站，也各出奇招，像 gitee 是通过前端加密登录信息，而 instagram 则是通过 url 里的 query_hash 以及 header 里的 X-CSRFToken，X-Instagram-GIS 来做校验，对爬虫很不友好，都不是那么容易登录进去的

直接发送账号密码到登录接口

有些淳朴的网站，其登录校验只要提供帐号密码就行，通过浏览器抓包看下数据格式，然后照样发起请求，就可以了

比如 500px，其登录验证几乎没有难度，代码如下

# -*- coding: utf-8 -*-

import requests
import json

from profile import email, password

session = requests.session()

if __name__ == '__main__':

    url = 'https://api.500px.com/v1/session'
    data = {
'session':
            {
'email': email,
'password': password
            }
    }
    headers = {'Content-Type': 'application/json'}

    result = session.post(url, data=json.dumps(data), headers=headers)
print(result.text)

登录成功后，网站会向客户端写入 cookie，后续访问就一路畅通了，在 python 里则意味着我们需要用 session 发起后续请求

复杂的登录校验

这次以 gitee 为例，来研究下如何登录，先用浏览器抓包看下 gitee 的登录

gitee 登录地址

gitee 登录数据

可以看到要登录 gitee，请求参数里有 authenticity_token 和加密后的 password

这个 token 怎么来的？根据经验判断应该是藏在 gitee 登录页某处，感觉不难获取；关键是这个 password 的加密，应该是某个 js 脚本的功劳，不过要逆向出 js 是如何加密的，的确是非常困难的。。。毕竟我们不是 js 执行引擎

如果无法逆向出这个加密算法，要怎么登录呢？可以先用浏览器登录，再把 cookie 复制出来给爬虫使用

首先是复制 cookie，浏览器登录 gitee 成功后，随意抓个包就可以得到 cookie 了

gitee cookie

复制下来的 cookie 设置到爬虫里，代码如下

# -*- coding: utf-8 -*-

import requests

session = requests.session()

if __name__ == '__main__':

    headers = {
'Host': 'gitee.com',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36',
'Accept': 'application/json',
'Cache-Control': 'no-cache',
'Connection': 'keep-alive',
    }

    url = 'https://gitee.com/api/v3/internal/my_resources'
    result = session.get(url=url, headers=headers)

if result.status_code == 200:
        print('success: \n%s' % (result.text))
else:
        print(result.status_code)

    headers['Cookie'] = '......'
    result = session.get(url=url, headers=headers)

if result.status_code == 200:
        print('success: \n%s' % (result.text))
else:
        print(result.status_code)

执行结果如下

// 未设置 cookie 返回 401
401

// 设置 cookie 后返回数据
success:
{"enterprises_count":0...}

可见，使用浏览器的 cookie 就可以达到爬虫免登录的效果了

程序自动获取 cookie

浏览器抓包再复制 cookie 到爬虫代码，感觉有点 low，实际上 cookie 是保存在我们电脑上的，这样浏览器才能做到记住登录状态功能

那么可以让爬虫自己读取浏览器 cookie，从而避免我们抓包再复制吗？答案是肯定的，考虑到文章篇幅，我将在下一篇文章里介绍如何用代码读取浏览器已存储 cookie 来进行登录，敬请期待

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/431479.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

复制url直接能跳过验证_python 爬虫如何突破登录验证

直接发送账号密码到登录接口

复杂的登录校验

程序自动获取 cookie

相关文章

[2-sat]HDOJ3062 Party

node作为java中间间_node作为中间服务层如何发送请求(发送请求的实现方法详解)...

python目标识别代码_利用ImageAI库只需几行python代码超简实现目标检测

Winodws live writer

java里面value_「Java基础知识」Java中包含哪些运算符

三元组法矩阵加法java_计算机视觉学习笔记（2.1）-KNN算法中距离矩阵的计算

[转]Java常用概念解答

idea maven创建java项目_新版本IntelliJ IDEA 构建maven,并用Maven创建一个web项目(图文教程)...

Linux 格式化磁盘命令mkfs

servlet 返回可访问文件_JavaWeb技术（4）：Servlet的理解（上）

java ldap 分页_具有从属引用的 LDAP 分页查询未正确处理

js分家效应

如何设置打印的时候不加上页面链接_excel表格的这10个打印小技巧，办公室财务人员记得收藏...

java sql objects_第十五章-简书.sql

rabbitmq 拉取消息太慢_面试官：消息队列这些我都要问

java 星期顺序_第8周【项目3-顺序串算法】

[ngRepeat:dupes] Duplicates in a repeater are not allowed. Use 'track by' expression to specify uniq

java 并列排名,178. 分数排名

编写高质量代码改善C#程序的157个建议——建议130：以复数命名枚举类型，以单数命名枚举元素...

python 定义变量_第三章（第2节）：变量和常量