第七课:Python反爬攻防战:Headers/IP代理与验证码

在爬虫开发过程中,反爬虫机制成为了我们必须面对的挑战。本文将深入探讨Python爬虫中常见的反爬机制,并详细解析如何通过随机User-Agent生成、代理IP池搭建以及验证码识别来应对这些反爬策略。文章将包含完整的示例代码,帮助读者更好地理解和应用这些技术。

一、常见反爬机制解析

1.1 基于Headers的反爬

许多网站通过检查请求头(Headers)中的User-Agent字段来判断请求是否来自爬虫。如果User-Agent字段不符合预期,网站可能会拒绝服务或返回错误页面。

1.2 基于IP的反爬

为了限制爬虫对网站的访问频率,网站通常会记录访问者的IP地址。当某个IP地址在短时间内发送大量请求时,网站可能会暂时或永久封禁该IP地址。

1.3 基于验证码的反爬

验证码是网站用来区分人类用户和自动化脚本的一种有效手段。当检测到异常访问模式时,网站可能会要求访问者输入验证码以验证其身份。

二、随机User-Agent生成

为了绕过基于Headers的反爬机制,我们可以使用随机User-Agent来模拟不同浏览器的访问请求。Python中的fake_useragent库可以帮助我们轻松实现这一点。

安装命令

pip install fake-useragent

示例代码

import requests
from fake_useragent import UserAgent# 生成一个随机的User-Agent
ua = UserAgent()
random_user_agent = ua.random# 设置请求头
headers = {'User-Agent': random_user_agent
}# 发送请求
response = requests.get('https://www.example.com', headers=headers)
print(response.text)

三、代理IP池搭建实战

为了绕过基于IP的反爬机制,我们可以使用代理IP来隐藏真实的IP地址。搭建一个代理IP池,并随机选择代理IP进行请求,可以大大降低被封禁的风险。

示例代码

3.1 爬取代理IP

首先,我们需要从一些提供免费代理IP的网站爬取代理IP信息。

import requests
from bs4 import BeautifulSoupdef get_proxy_ips():# 替换为实际代理IP网站url = "https://www.example-proxy-website.com"headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}proxy_ips = []try:response = requests.get(url, headers=headers)if response.status_code == 200:soup = BeautifulSoup(response.text, 'html.parser')# 假设代理IP信息在一个表格中,通过查找表格行(tr)来获取数据rows = soup.find_all('tr')# 跳过表头行for row in rows[1:]:cols = row.find_all('td')ip = cols[0].textport = cols[1].textproxy = f"{ip}:{port}"proxy_ips.append(proxy)return proxy_ipsexcept requests.RequestException as e:print(f"请求错误: {e}")return []proxy_ips = get_proxy_ips()
print(proxy_ips)
3.2 验证代理IP

爬取到的代理IP不一定都能正常使用,因此我们需要进行可用性验证。

def check_proxy(proxy):test_url = "https://www.baidu.com"# 可以代理的字典数据proxies = {"http": f"http://{proxy}","https": f"https://{proxy}"}try:# 测试代理地址response = requests.get(test_url, proxies=proxies, timeout=5)if response.status_code == 200:return Truereturn Falseexcept requests.RequestException:return Falsevalid_proxy_ips = []
for proxy in proxy_ips:if check_proxy(proxy):valid_proxy_ips.append(proxy)# 输出可以进行代理的正确地址
print(valid_proxy_ips)
3.3 使用代理IP进行请求

最后,我们可以使用验证通过的代理IP来发送请求。

import random# 随机选择一个可用的代理IP
proxy = random.choice(valid_proxy_ips)
proxies = {"http": f"http://{proxy}","https": f"https://{proxy}"
}# 设置请求头
headers = {'User-Agent': random_user_agent
}# 发送请求
response = requests.get('https://www.example.com', headers=headers, proxies=proxies)
print(response.text)

四、验证码识别基础方案

验证码识别是绕过基于验证码反爬机制的关键。虽然验证码识别技术相对复杂,但我们可以使用一些开源的OCR(文字识别)库来实现基本的验证码识别。

示例代码

4.1 安装必要的库

从Tesseract-OCR官网下载并安装Tesseract-OCR

首先,我们需要安装Pillow和pytesseract库。Pillow用于图像处理,pytesseract是Tesseract-OCR的Python接口。

pip install pillow pytesseract

注意:你还需要从Tesseract-OCR官网下载并安装Tesseract-OCR,并设置环境变量TESSDATA_PREFIX指向包含tessdata的目录。

4.2 验证码识别

假设我们已经下载了一张验证码图片captcha.jpg,我们可以使用以下代码进行识别。

from PIL import Image
import pytesseract# 打开验证码图片
image = Image.open('captcha.jpg')# 进行OCR识别
text = pytesseract.image_to_string(image, lang='eng')print('识别结果:', text)

识别完成以后,根据前边学习的内容,把图片中的内容填写到输入框即可

总结

本文通过详细解析常见的反爬机制,并提供了随机User-Agent生成、代理IP池搭建以及验证码识别的基础方案,帮助读者更好地理解和应对Python爬虫中的反爬挑战。希望这些技术和示例代码能对大家的爬虫开发有所帮助。

关注我!!🫵 持续为你带来Python相关内容。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/71790.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Vue3——Fragment

文章目录 一、Fragment的核心意义1. 解决Vue2的单根限制问题2. 减少不必要的 DOM 嵌套3. 语义化和结构化 二、Fragment 的实现原理三、Fragment 使用方式1. 基本用法2. 结合条件渲染3. 动态组件 四、实际应用场景1. 列表/表格组件2. 布局组件3. 语义化标签 五、注意事项1. 属性…

字节跳动C++客户端开发实习生内推-抖音基础技术

智能手机爱好者和使用者,追求良好的用户体验; 具有良好的编程习惯,代码结构清晰,命名规范; 熟练掌握数据结构与算法、计算机网络、操作系统、编译原理等课程; 熟练掌握C/C/OC/Swift一种或多种语言&#xff…

【Linux学习笔记】Linux基本指令分析和权限的概念

【Linux学习笔记】Linux基本指令分析和权限的概念 🔥个人主页:大白的编程日记 🔥专栏:Linux学习笔记 文章目录 【Linux学习笔记】Linux基本指令分析和权限的概念前言一. 指令的分析1.1 alias 指令1.2 grep 指令1.3 zip/unzip 指…

数据库索引的作用:提升数据检索效率的关键

在数据库管理系统中,数据如同浩瀚海洋中的宝藏,如何快速准确地找到所需信息,成为了一个关键问题。这时候,数据库索引就如同一张精确的航海图,指引着我们高效地定位数据。那么,数据库索引究竟是什么&#xf…

Lab18_ SQL injection with filter bypass via XML encoding

文章目录 前言:进入实验室构造 payload 前言: 实验室标题为: 通关 XML 编码绕过过滤器的 SQL 注入 简介: 此实验室的库存检查功能中存在 SQL 注入漏洞。查询结果在应用程序的响应中返回,因此您可以使用 UNION 攻击…

计算机性能指标(计网笔记)

计算机性能指标:速率、带宽、吞吐率、时延、时延带宽积、往返时间RTT、利用率 速率 数据的传输速率,单位bit/s,或kbit/s,Mbit/s,Gbit/s 4*10**10bit/s40Gbit/s 常用带宽单位: 千比每秒kb/s 兆比每秒Mb/s…

同为科技智能PDU在数据中心场景的应用与解决方案

数据中心当前处于一个快速发展和技术变革的特殊时期,全新的人工智能应用正在重塑整个世界,为社会带来便捷的同时,也为数据中心的发展带来了新的机遇和挑战。智能算例的爆发式增长,对数据中心提出了大算力、高性能的新需求&#xf…

蓝桥杯 C++ b组 积木画深度解析

题目大意:有两种积木块,I型和L型,给定一段2*N的画布,问摆满总共有多少种方式? 解法:状态压缩dp(强烈建议拿个笔跟着画一下状态,慢慢就懂了) 首先我们规定一下此题解中提…

小程序事件系统 —— 32 事件系统 - 事件分类以及阻止事件冒泡

在微信小程序中,事件分为 冒泡事件 和 非冒泡事件 : 冒泡事件:当一个组件的事件被触发后,该事件会向父节点传递;(如果父节点中也绑定了一个事件,父节点事件也会被触发,也就是说子组…

【从0到1搞懂大模型】神经网络的实现:数据策略、模型调优与评估体系(3)

一、数据集的划分 (1)按一定比例划分为训练集和测试集 我们通常取8-2、7-3、6-4、5-5比例切分,直接将数据随机划分为训练集和测试集,然后使用训练集来生成模型,再用测试集来测试模型的正确率和误差,以验证…

Django与数据库

我叫补三补四,很高兴见到大家,欢迎一起学习交流和进步 今天来讲一讲alpha策略制定后的测试问题 mysql配置 Django模型体现了面向对象的编程技术,是一种面向对象的编程语言和不兼容类型能相互转化的编程技术,这种技术也叫ORM&#…

从 GitHub 批量下载项目各版本的方法

一、脚本功能概述 这个 Python 脚本的主要功能是从 GitHub 上下载指定项目的各个发布版本的压缩包(.zip 和 .tar.gz 格式)。用户需要提供两个参数:一个是包含项目信息的 CSV 文件,另一个是用于保存下载版本信息的 CSV 文件。脚本…

ECC升级到S/4 HANA的功能差异 物料、采购、库存管理对比指南

ECC升级到S/4 HANA后,S4 将数据库更换为HANA后性能有一定提升,对于自开发程序,可以同时将计算和部分业务逻辑下推到HANA数据库层,减少应用层和数据库层的交互次数和数据传输,只返回需要的结果到应用层和显示层。提升自…

表格columns拼接两个后端返回的字段(以umi框架为例)

在用组件对前端项目进行开发时,我们会遇到以下情况:项目原型中有取值范围这个表字段,需要存放最小取值到最大取值。 而后端返回给我们的数据是返回了一个最小值和一个最大值, 在columns中我们需要对这两个字段进行拼接&#xff0…

使用Galaxy创建生物信息学工作流的步骤详解

李升伟 整理 Galaxy 是一个基于 Web 的生物信息学平台,提供了直观的用户界面和丰富的工具,帮助用户创建和管理生物信息学工作流。以下是使用 Galaxy 创建生物信息学工作流的主要步骤: 1. 访问 Galaxy 平台 打开 Galaxy 的官方网站&#xff…

蓝桥杯—走迷宫(BFS算法)

题目描述 给定一个NM 的网格迷宫 G。G 的每个格子要么是道路,要么是障碍物(道路用 11表示,障碍物用 0 表示)。 已知迷宫的入口位置为 (x1​,y1​),出口位置为 (x2​,y2​)。问从入口走到出口,最少要走多少…

【GPT入门】第12课 FunctionCall 生成数据库sql代码

【GPT入门】第12课 FunctionCall 生成数据库sql代码 1.概述2. 代码3.执行结果 1.概述 如下代码的任务:自然语言问ai,自动生成sql并回答用户 实现思路: 步骤1. ai会把用户的问题,转为sql 步骤2. 程序执行sql 步骤3.把执行的sql结果&#xff…

《白帽子讲 Web 安全》之身份认证

目录 引言 一、概述 二、密码安全性 三、认证方式 (一)HTTP 认证 (二)表单登录 (三)客户端证书 (四)一次性密码(OTP) (五)多因…

服务器python项目部署

角色:root, 其他用户应该也可以 1. 安装python3环境 #如果是新机器,尽量执行,避免未知报错 yum -y update python -v yum install python3 python3 -v2. 使用virtualenvwrapper 创建虚拟环境,并使用workon切换不同的虚拟环境 # 安装virtua…

更新vscode ,将c++11更新到c++20

要在CentOS系统中安装最新版本的GCC,你可以使用SCL(Software Collections)仓库,它提供了开发工具的最新版本。以下是安装步骤: 1、 添加SCL仓库: 首先,添加CentOS的SCL仓库,该仓库…