用selenium+ChromeDriver豆瓣电影 肖申克的救赎 短评爬取(pycharm 爬虫)

一、豆瓣电影 肖申克的救赎 短评url=https://movie.douban.com/subject/1292052/comments

 

 

二、基本知识点讲解

1. Selenium 的基本使用

Selenium 是一个用于自动化浏览器操作的库,常用于网页测试和爬虫。代码中使用了以下 Selenium 的核心功能:

  • webdriver.Chrome: 启动 Chrome 浏览器实例。

  • driver.get(url): 打开指定的网页。

  • driver.find_elements: 查找页面中符合条件的所有元素。

  • driver.execute_script: 执行 JavaScript 代码(例如点击按钮)。

  • driver.quit(): 关闭浏览器并结束 WebDriver 会话。


2. ChromeDriver 的配置

  • Service: 用于指定 ChromeDriver 的路径。

  • executable_path: ChromeDriver 可执行文件的路径(需与 Chrome 浏览器版本匹配)。


3. 页面元素的定位

Selenium 提供了多种定位页面元素的方式,代码中使用了以下方法:

  • By.XPATH: 使用 XPath 表达式定位元素。

    • 例如://div[@class="comment-item"] 表示查找所有 class 为 comment-item 的 div 元素。

  • By.CLASS_NAME: 通过 class 名称定位元素(代码中未直接使用,但 XPath 中包含了类似功能)。


4. 显式等待与隐式等待

  • 显式等待 (WebDriverWait):

    • 使用 WebDriverWait 和 expected_conditions 来等待特定条件满足后再执行操作。

    • 例如:EC.presence_of_element_located 等待某个元素出现在页面中。

    • 优点:更灵活,可以针对特定条件设置超时时间。

  • 隐式等待 (time.sleep):

    • 使用 time.sleep 强制等待一段时间。

    • 例如:time.sleep(3) 等待 3 秒。

    • 缺点:不够灵活,可能会导致不必要的等待。


5. 爬取短评的逻辑

  • 初始化变量:

    • comments = []: 用于存储爬取到的短评内容。

  • 爬取短评:

    • 使用 find_elements 查找所有短评元素。

    • 使用 find_element 提取每个短评的具体内容(span 标签中的文本)。

    • 将提取的内容添加到 comments 列表中。

  • 异常处理:

    • 使用 try-except 捕获可能的异常(例如元素未找到或提取失败),避免程序崩溃。


6. 翻页功能

  • 查找下一页按钮:

    • 使用 XPath 定位下一页按钮(//a[@class='next'])。

  • 检查按钮状态:

    • 通过 get_attribute("class") 检查按钮是否包含 disabled 类(表示不可点击)。

  • 点击下一页:

    • 使用 driver.execute_script("arguments[0].click();", next_btn) 通过 JavaScript 点击按钮(避免某些页面中按钮无法直接点击的问题)。

  • 等待新页面加载:

    • 使用 WebDriverWait 等待新页面的短评加载完成。


7. 输出结果

  • 使用 print 输出爬取到的短评数量和具体内容。

  • 例如:短评 1: 这是一条评论内容


8. 关闭浏览器

  • 使用 driver.quit() 关闭浏览器并释放资源。

三、具体代码以及详解的展示 

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time# 配置 ChromeDriver
# 使用 Service 类指定 ChromeDriver 的路径
service = Service(executable_path=r"D:\chromdriver\chromedriver-win64\chromedriver.exe")
# 启动 Chrome 浏览器
driver = webdriver.Chrome(service=service)# 初始化变量,用于存储爬取到的短评
comments = []# 打开豆瓣电影短评页面
driver.get("https://movie.douban.com/subject/1292052/comments")
# 等待页面加载,避免页面未完全加载导致元素找不到
time.sleep(3)# 爬取短评
while True:try:# 使用显式等待,等待页面中的短评元素加载完成WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.XPATH, '//div[@class="comment-item"]')))# 查找当前页面中所有的短评元素comment_elements = driver.find_elements(By.XPATH, '//div[@class="comment-item"]')# 遍历每个短评元素,提取内容for comment in comment_elements:try:# 提取短评的具体内容(位于 span 标签中,class 为 "short")content = comment.find_element(By.XPATH, './/span[@class="short"]').text# 将提取的内容添加到 comments 列表中comments.append(content)except Exception as e:# 如果某个短评提取失败,跳过并继续处理下一个短评continueexcept Exception as e:# 如果页面加载失败或短评元素未找到,退出循环break# 尝试翻页try:# 查找下一页按钮next_btn = WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.XPATH, "//a[@class='next']")))# 检查下一页按钮是否可点击(是否包含 "disabled" 类)if "disabled" in next_btn.get_attribute("class"):# 如果按钮不可点击,说明已经是最后一页,退出循环breakelse:# 使用 JavaScript 点击下一页按钮(避免某些页面中按钮无法直接点击的问题)driver.execute_script("arguments[0].click();", next_btn)# 等待新页面的短评元素加载完成WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.XPATH, '//div[@class="comment-item"]')))# 等待页面完全加载time.sleep(2)except Exception as e:# 如果找不到下一页按钮或翻页失败,退出循环break# 输出结果
print(f"共爬取到 {len(comments)} 条短评:")
# 遍历 comments 列表,打印每条短评
for i, comment in enumerate(comments, 1):print(f"短评 {i}: {comment}")# 关闭浏览器
driver.quit()

四、运行结果展示(具体如何找到XPATH在专栏里面有) 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/73562.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

开源在线客服系统源码-前端源码加载逻辑

客服源码是使用Golang(又称Go)开发的,Go是Google公司开发的一种静态强类型、编译型、并发型,并具有垃圾回收功能的编程语言。Go 天生支持并发。好处太多就不多说了。 全源码客服系统用户,想要针对自己的业务,进行二次开发&#xf…

Oracle数据库服务器地址变更与监听配置修改完整指南

一、前言 在企业IT运维中,Oracle数据库服务器地址变更是常见的运维操作。本文将详细介绍如何安全、高效地完成Oracle数据库服务器地址变更及相关的监听配置修改工作,确保数据库服务在迁移后能够正常运行。 二、准备工作 1. 环境检查 确认新旧服务器I…

g对象在flask中主要是用来实现什么

在Flask中,g对象(全称flask.g)是一个线程局部(thread-local)的临时存储对象,主要用于在单个请求的上下文(request context)中共享数据。它的核心作用是为同一请求的不同处理阶段&…

工具介绍《WireShark》

Wireshark 过滤命令中符号含义详解 一、比较运算符 Wireshark 支持两种比较运算符语法:英文缩写(如 eq)和 C语言风格符号(如 ),两者功能等价。 符号(英文缩写)C语言风格符号含义示…

JavaScrip-模版字符串的详解

1.模版字符串的详解 1.1 模版字符串的使用方法 在ES6之前,如果我们想要将字符串和一些动态的变量(标识符)拼接到一起,是非常丑陋的(ugly) ES6允许我们使用模版字符串来嵌入变量或者表达式来进行拼接 首先,…

STM32C011 进入停止模式和待机模式

对于STM32C011J4M3微控制器,你可以使用HAL库来实现进入停止模式(Stop Mode)和待机模式(Standby Mode)。下面是进入停止模式和待机模式的示例代码: 进入停止模式代码示例: #include "stm3…

海康设备http监听接收报警事件数据

http监听接收报警事件数据 海康获取设备报警事件数据两种方式: 1、sdk 布防监听报警事件数据(前面文章有示例) 2、http监听接收报警事件数据 http监听接收报警事件数据,服务端可以使用netty通过端口来监听获取事件数据。 WEB 端…

FastAPI 全面指南:功能解析与应用场景实践

FastAPI 全面指南:功能解析与应用场景实践 FastAPI 是一个现代、快速(高性能)的 Python Web 框架,用于构建 API。它基于标准 Python 类型提示,使用 Starlette 和 Pydantic 构建,提供了极高的性能并简化了开…

【STM32】编写程序控制开发板的RGB LED灯

目录 1、原理图2、文件结构3、使用寄存器模式点亮3.1、什么是寄存器3.2、寄存器开发的本质3.3、寄存器开发步骤3.4、主要源码3.4.1、main.c3.4.2、drv_gpio.h3.4.3、drv_gpio.c3.4.4、使用BSRR和BRR影子寄存器优化drv_gpio.c3.4.5、效果演示 4、使用标准库模式点亮4.1、使用标准…

MyBatis-Plus 的加载及初始化

在 Spring Boot 启动过程中,MyBatis-Plus 的加载和初始化涉及多个阶段的工作。这些工作包括 MyBatis-Plus 自身的配置解析、Mapper 接口的扫描与注册、SQL 语句的动态注入以及底层 MyBatis 的初始化等。以下是对整个过程的详细分析: 1. Spring Boot 启动…

SpringBoot中安全的设置阿里云日志SLS的accessKey

众所周知,阿里云的服务都是基于accesskeyId和accesskeySecret来进行身份鉴权的,但唯独日志因为需要写入到.xml文件里对于accesskeyId和accesskeySecret需要进行一定程度的改进,尤其是使用了jasypt进行加密的参数传递进去logback.xml更是会遇到需要对参数进行解密的问题,而官网只…

关于解决Ubuntu终端及系统字体大小的问题

在Ubuntu中调整终端和系统字体大小可以通过以下方法(可能不仅仅只是这几种)实现: 1. 调整系统字体大小 打开终端并输入以下命令,安装GNOME Tweaks,等待安装完成: sudo apt install gnome-tweaks 接着进行…

Rust vs. Go: 性能测试(2025)

本内容是对知名性能评测博主 Anton Putra Rust vs. Go (Golang): Performance 2025 内容的翻译与整理, 有适当删减, 相关数据和结论以原作结论为准。 再次对比 Rust 和 Go,但这次我们使用的是最具性能优势的 HTTP 服务器库---Hyper,它基于 Tokio 异步运…

【NLP 48、大语言模型的神秘力量 —— ICL:in context learning】

目录 一、ICL的优势 1.传统做法 2.ICL做法 二、ICL的发展 三、ICL成因的两种看法 1.meta learning 2.Bayesian Inference 四、ICL要点 ① 语言模型的规模 ② 提示词prompt中提供的examples数量和顺序 ③ 提示词prompt的形式(format) 五、fine-tune VS I…

两数之和解题记录

开始打算用一个数组保存差值,arr[target-nums[i]] i, 只要arr[nums[i]]有内容就能满足target,返回arr[nums[i]]和i。但是会出现复数的情况,所以换成map。 换成map就只用一边遍历,一遍检查和存入对应key就行了,value就…

P1722 矩阵Ⅱ - 洛谷

题源:P1722 矩阵 II - 洛谷 看了题目之后,需要注意的是: ①在1 ~ i 个格子中红色数量 > 黑色数量 ②最后,在2 * n 个格子中,红色数量 黑色数量 根据这两个约束条件,可以知道,第一个格…

数据库——MySQL基础操作

一、表结构与初始数据 假设存在以下两张表: 1. student 表 字段名数据类型描述idINT学生唯一标识符nameVARCHAR(100)学生姓名ageINT学生年龄sexVARCHAR(10)学生性别 初始数据: idnameagesex1张三20男2李四22女3王五21男 2. course 表 字段名数据类…

行业白皮书2025 | 益企研究院:AI时代的存储基石

在当今科技飞速发展的时代,AI技术已成为推动各行业变革的关键力量。日前,益企研究院重磅发布《AI时代的存储基石》白皮书。 下载方式:关注“渡江客涂鸦板”,回复st250326获取免费下载地址 数据需求与技术挑战: AI技术…

音视频新人如何快速上手nginx-rtmp-module

一、整体设计架构 nginx-rtmp-module 是 Nginx 的一个扩展模块,专门为 Nginx 添加了对 RTMP 协议的支持。其核心功能包括: RTMP推流(publish) RTMP拉流(play) 流转发(relay) 流录…

vue 封装 Axios菜鸟教程

1、Axios依赖下载 $ npm install axios 2、以下链接为Axios 的api Axios 实例 | Axios中文文档 | Axios中文网 3、 项目新建request.js,文件名称按照驼峰命名法就可以 4、封装request.js代码如下 import axios from "axios"//创建axios实例&#xff0…