深挖navigator.webdriver浏览器自动化检测的底层分析

爬虫代理

本文将带你深入探索并实践如何从底层层面破解浏览器 navigator.webdriver 检测,结合爬虫代理等策略伪装、多线程加速等技术,在豆瓣图书搜索页面上批量采集图书评分、简介、作者等信息。文章面向初学者,采用分步教程型结构,并增设「陷阱警告」板块,帮助你规避常见误区,快速上手。

明确目标 + 前置知识

目标

  1. 破解 Selenium 驱动浏览器中 navigator.webdriver 检测。
  2. 使用爬虫代理(固定域名、端口、用户名、密码)突破 IP 限制。
  3. 设置 Cookie 与自定义 User-Agent 伪装真实用户。
  4. 利用多线程技术并发提升采集效率。
  5. 在 https://book.douban.com 上,根据图书名搜索并采集评分、简介、作者等信息。

前置知识

  • Python 基础、Selenium 库使用。
  • HTTP 请求、Cookie 与 User-Agent 原理。
  • 代理 IP 概念及 HTTP 代理认证。
  • 线程/多线程编程(threadingconcurrent.futures)。

按步骤拆解操作

步骤 1:获取并配置爬虫代理信息

获取代理配置:

  • 代理域名proxy.16yun.cn
  • 端口12345
  • 用户名your_username
  • 密码your_password

步骤 2:构建 Selenium 驱动并底层隐藏 navigator.webdriver

from selenium import webdriver
from selenium.webdriver.chrome.options import Optionsdef create_driver():# 参考亿牛云爬虫代理示例 www.16yun.cnPROXY_HOST = 'proxy.16yun.cn'              # 代理域名PROXY_PORT = '12345'                       # 代理端口PROXY_USER = 'your_username'               # 代理用户名PROXY_PASS = 'your_password'               # 代理密码CUSTOM_UA = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)...'  # 自定义 UAoptions = Options()# 隐藏 Selenium 特征options.add_experimental_option('excludeSwitches', ['enable-automation'])options.add_experimental_option('useAutomationExtension', False)options.add_argument('--disable-blink-features=AutomationControlled')# 设置 User-Agentoptions.add_argument(f'--user-agent={CUSTOM_UA}')# 配置代理proxy = f"{PROXY_USER}:{PROXY_PASS}@{PROXY_HOST}:{PROXY_PORT}"options.add_argument(f'--proxy-server=http://{proxy}')# 可选:无头模式options.add_argument('--headless')driver = webdriver.Chrome(options=options)# 在每次新页面加载前注入 JS,隐藏 navigator.webdriver 属性driver.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument',{'source': "Object.defineProperty(navigator, 'webdriver', {get: () => undefined});"})return driver
  • 利用 excludeSwitchesdisable-blink-features 避免基本指纹检测
  • 使用 CDP 命令 Page.addScriptToEvaluateOnNewDocumentnavigator.webdriver 强制设为 undefined

步骤 3:设置 Cookie 和发起搜索请求

from selenium.webdriver.common.by import By
import timedef fetch_book_info(driver, book_name):# 访问豆瓣图书搜索页面url = f"https://book.douban.com/subject_search?search_text={book_name}"driver.get('https://book.douban.com')# 添加示例 Cookie(如有登录需求,可替换为实际 Cookie)driver.add_cookie({'name': 'example_cookie', 'value': 'value123', 'domain': 'book.douban.com'})driver.get(url)time.sleep(2)  # 等待页面加载# 定位结果并点击第一个条目first = driver.find_element(By.CSS_SELECTOR, '.subject-item .nbg')first.click()time.sleep(2)# 提取评分、简介、作者rating = driver.find_element(By.CSS_SELECTOR, 'strong.rating_num').textsummary = driver.find_element(By.CSS_SELECTOR, '#link-report .intro').textauthor = driver.find_element(By.CSS_SELECTOR, '#info').text.split('\n')[0]return {'name': book_name, 'rating': rating, 'summary': summary, 'author': author}
  • driver.add_cookie 实现 Cookie 注入,模拟登录状态或个性化请求
  • 通过 CSS 选择器提取目标信息

步骤 4:启用多线程并发采集

from concurrent.futures import ThreadPoolExecutordef main(book_list):results = []with ThreadPoolExecutor(max_workers=5) as executor:# 每个线程创建独立 driverfutures = [executor.submit(lambda name: fetch_book_info(create_driver(), name), name)for name in book_list]for future in futures:results.append(future.result())for info in results:print(info)if __name__ == '__main__':books = ['三体', '活着', '百年孤独', '小王子']main(books)
  • 利用 ThreadPoolExecutor 并发执行,最大 5 个线程同时跑
  • 每个线程内部独立创建并关闭 WebDriver,避免资源冲突

陷阱警告

  • 未注入 JS 时机不对execute_script 在页面加载后才执行,JS 注入可能失效,必须用 Page.addScriptToEvaluateOnNewDocument
  • 代理格式错误--proxy-server 参数需包含认证信息,否则返回 407 错误
  • 线程数过多导致资源占用:ChromeDriver 启动耗内存,建议根据机器性能调整 max_workers

常见错误提示 + 延伸练习

常见错误提示

  • selenium.common.exceptions.WebDriverException: unknown error: net::ERR_PROXY_CONNECTION_FAILED
    检查代理域名、端口及用户名密码是否正确。
  • NoSuchElementException
    页面结构可能变动,需更新 CSS/XPath 选择器。
  • 页面加载不完全
    可增大 time.sleep 或改用 WebDriverWait 精准等待。

延伸练习

  1. 切换更多反检测手段:尝试用 undetected-chromedriver 库优化指纹隐藏。
  2. Session 复用:在多次请求中复用同一浏览器实例,减少启动开销。
  3. IP 自动切换:结合「自主切换」模式,通过 Proxy-Tunnel 请求头动态控制代理 。

通过本文的分步指导与示例代码,你已经掌握了从底层破解 navigator.webdriver 检测,并结合爬虫代理与多线程技术,在豆瓣图书页面上高效采集所需信息的完整流程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/906538.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

如何实现从网页一键启动你的 Electron 桌面应用(zxjapp://)

在现代桌面应用开发中,Electron 凭借其跨平台能力和前端友好的特性,受到了越来越多开发者的青睐。但你是否想过,如何让用户从网页上一键启动你本地的 Electron 应用?比如像某些云盘客户端那样,点击网页上的按钮就能直接…

Java安全-Servlet内存马

内存马简介 内存马是指将恶意代码注入到内存中,达到无文件落地的效果,使得被攻击方难以察觉。由于是无文件的形式,可以绕过部分基于文件检测的杀软。而 Servlet 内存马是基于 Java Servlet 技术,动态将恶意代码注入到 Tomcat 内存…

LeetCode-前缀和-和为K的子数组

LeetCode-前缀和-和为K的子数组 ✏️ 关于专栏:专栏用于记录 prepare for the coding test。 文章目录 LeetCode-前缀和-和为K的子数组📝 和为K的子数组🎯题目描述🔍 输入输出示例🧩题目提示🧪前缀和❓什么…

动态神经网络(Dynamic NN)在边缘设备的算力分配策略:MoE架构实战分析

一、边缘计算场景的算力困境 在NVIDIA Jetson Orin NX(64TOPS INT8)平台上部署视频分析任务时,开发者面临三重挑战: 动态负载波动 视频流分辨率从480p到4K实时变化,帧率波动范围20-60FPS 能效约束 设备功耗需控制在1…

算法优选系列(9.BFS 解决拓扑排序)

目录 拓扑排序简介: ​编辑 课程表(medium): 课程表II(medium): 火星词典(hard): 拓扑排序简介: 有向无环图(DAG图) 如上图每条边…

SpringBoot3+Vue3(1)-后端 请求头校验,jwt退出登录,mybaits实现数据库用户校验

1.后端:jwt请求头校验 解析 工具类jwtUtils 解析token 令牌是否过期,验证 正常、异常、运行时错误 倒入工具类是resource 工具类中添加解析用户的方法: 在 在工具类添加id解析 此处调用 添加controller做测试 测试&…

【免杀】C2免杀技术(八)APC注入

本文主要写点自己的理解,如有问题,请诸位指出! 概念和流程 “APC注入”(APC Injection)是免杀与恶意代码注入技术中的一种典型方法,主要用于在目标进程中远程执行代码,常见于后门、远控、植入型…

git工具使用

安装Git 在开始使用Git之前,需要在本地计算机上安装Git工具。Git支持Windows、macOS和Linux系统。可以从Git官方网站下载适合操作系统的安装包,并按照安装向导进行安装。 bash复制插入 # 在Linux上安装Git sudo apt-get install git# 在macOS上安装Git…

SpringBoot微服务编写Dockerfile流程及问题汇总

背景 跟 Docker 磕了两天,将一个包含 N 个微服务的应用部署包改造,使其能够生成 Docker 镜像,并在 Docker 容器中运行。几年前玩过 Docker,隐约记得几个命令「Dockerfile 命令:黑卡饮料、山楂果费、哦SUV,…

pytorch语法学习

启动 python main.py --config llve.yml --path_y test -i output

基于LiveData和ViewModel的路线管理实现(带PopupWindow删除功能)

包含RecyclerView绑定、PopupWindow删除功能和SharedPreferences持久化存储。 1. RouteInfo类(实现Parcelable接口) java 复制 下载 import android.os.Parcel; import android.os.Parcelable;public class RouteInfo implements Parcelable {private Integer routeID;p…

jvm安全点(二)openjdk17 c++源码垃圾回收安全点信号函数处理线程阻塞

1. 信号处理与桩代码(Stub)​​ 当线程访问安全点轮询页(Polling Page)时: ​​触发 SIGSEGV 信号​​:访问只读的轮询页会引发 SIGSEGV 异常。​​信号处理函数​​:pd_hotspot_signal_handl…

如何用数据可视化提升你的决策力?

在数字化浪潮席卷全球的当下,数据已然成为企业和组织发展的核心资产。然而,单纯的数据堆积犹如未经雕琢的璞玉,难以直接为决策提供清晰有力的支持。数据可视化作为一种强大的工具,能够将海量、复杂的数据转化为直观、易懂的图形、…

VoiceFixer语音修复介绍与使用

一.简介 VoiceFixer 是一款基于深度学习的通用语音修复工具,主要用于恢复严重退化的语音信号,支持降噪、消除回声、提升音质等功能。 二.核心功能 1.语音修复与增强 VoiceFixer 采用端到端的神经网络模型,能够处理多种语音退化问题&#x…

Vue百日学习计划Day19-20天详细计划-Gemini版

重要提示: 番茄时钟: 每个番茄钟为25分钟学习,之后休息5分钟。每完成4个番茄钟,进行一次15-30分钟的长休息。动手实践: DevTools 的使用和 Git 命令的掌握都需要大量的实际操作。请务必边学边练。环境准备&#xff1a…

Qt初识.

认识 QLabel 类,能够在界面上显示字符串. 通过 setText 来设置的。参数 QString (Qt 中把 C 里的很多容器类,进行了重新封装。历史原因) 内存泄露 / 文件资源泄露对象树. Qt 中通过对象树,来统一的释放界面的控件对象. Qt 还是推荐使用 new 的…

WebGPU 图形计算

以下是关于 WebGPU 图形计算的基本知识点总结: 一、WebGPU 核心定位与优势 1. 与传统技术对比 维度WebGLWebGPU架构设计OpenGL ES 封装现代图形API抽象(Vulkan/Metal/D3D12)多线程支持单线程渲染多线程并行计算计算能力有限通用计算完整计算管线支持资源控制隐式状态管理显…

视觉基础模型

2.1 视觉的“大模型”时代:ViT的诞生与革新 在计算机视觉领域,卷积神经网络(CNN)曾是当之无愧的霸主。从LeNet到ResNet,CNN在图像分类、目标检测等任务上取得了巨大成功。然而,随着Transformer模型在自然语…

【React Native】快速入门

对于移动端应用来说,开发 Android 应用使用的语言有 java 和 kotlin,开发 ios 应用使用的语言有 obj-c 和 Swift 。因此,我们使用 react-native 编写一套代码进行跨端开发。 构建项目: npx create-expo-applatest安装 nativewin…

AR 开启昆虫学习新视界,解锁奇妙微观宇宙

在传统昆虫学习中,课堂教学是主要方式,老师通过板书、PPT 传授知识,但学生被动接受,书本静态图片无法展现昆虫真实比例、立体形态,学生难以直观感受复杂身体结构。博物馆的昆虫标本也是学习途径,不过标本放…