Python爬虫实战:爬取豆瓣电影

目录

引言

1. 爬虫基础

1.1 什么是爬虫?

1.2 Python爬虫常用库

2. 实战:抓取豆瓣电影Top250

2.1 安装依赖库

2.2 发送HTTP请求

​编辑

2.3 解析HTML

​编辑

2.4 存储数据

2.5 完整代码

3. 进阶:处理分页和动态内容

3.1 抓取多页数据

3.2 处理动态内容

4. 反爬虫策略与应对

4.1 常见的反爬虫策略

4.2 应对策略

5. 总结


引言

在当今大数据时代,网络爬虫(Web Crawler)成为了获取互联网数据的重要工具。无论是数据分析、机器学习还是市场调研,爬虫技术都能帮助我们快速获取所需的数据。本文将带你从零开始,使用Python编写一个简单的网络爬虫,并逐步扩展到更复杂的应用场景。

1. 爬虫基础

1.1 什么是爬虫?

网络爬虫是一种自动化程序,能够从互联网上抓取数据。它通过模拟浏览器请求,访问网页并提取所需的信息。爬虫的核心任务包括:

  • 发送HTTP请求:向目标网站发送请求,获取网页内容。

  • 解析HTML:从网页中提取有用的数据。

  • 存储数据:将提取的数据保存到本地或数据库中。

1.2 Python爬虫常用库

Python拥有丰富的库来支持爬虫开发,以下是常用的几个库:

  • Requests:用于发送HTTP请求,获取网页内容。

  • BeautifulSoup:用于解析HTML,提取数据。

  • Scrapy:一个强大的爬虫框架,适合大规模数据抓取。

  • Selenium:用于处理动态网页,模拟浏览器操作。

2. 实战:抓取豆瓣电影Top250

将以抓取豆瓣电影Top250为例,演示如何使用Python编写一个简单的爬虫。

2.1 安装依赖库

首先,确保你已经安装了requestsBeautifulSoup库。如果没有安装,可以使用以下命令进行安装:

pip install requests beautifulsoup4

2.2 发送HTTP请求

我们使用requests库向豆瓣电影Top250页面发送请求,获取网页内容。

import requestsurl = "https://movie.douban.com/top250"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}response = requests.get(url, headers=headers)
if response.status_code == 200:print("请求成功!")html_content = response.text
else:print("请求失败,状态码:", response.status_code)

2.3 解析HTML

使用BeautifulSoup解析HTML,提取电影名称、评分等信息。

from bs4 import BeautifulSoupsoup = BeautifulSoup(html_content, "html.parser")movies = soup.find_all("div", class_="info")for movie in movies:title = movie.find("span", class_="title").textrating = movie.find("span", class_="rating_num").textprint(f"电影名称:{title},评分:{rating}")

2.4 存储数据

将提取的数据保存到CSV文件中。

import csvwith open("douban_top250.csv", mode="w", newline="", encoding="utf-8") as file:writer = csv.writer(file)writer.writerow(["电影名称", "评分"])for movie in movies:title = movie.find("span", class_="title").textrating = movie.find("span", class_="rating_num").textwriter.writerow([title, rating])

2.5 完整代码

import requests
from bs4 import BeautifulSoup
import csvurl = "https://movie.douban.com/top250"
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}response = requests.get(url, headers=headers)
if response.status_code == 200:html_content = response.text
else:print("请求失败,状态码:", response.status_code)exit()soup = BeautifulSoup(html_content, "html.parser")
movies = soup.find_all("div", class_="info")with open("douban_top250.csv", mode="w", newline="", encoding="utf-8") as file:writer = csv.writer(file)writer.writerow(["电影名称", "评分"])for movie in movies:title = movie.find("span", class_="title").textrating = movie.find("span", class_="rating_num").textwriter.writerow([title, rating])print("数据已保存到douban_top250.csv")

3. 进阶:处理分页和动态内容

3.1 抓取多页数据

豆瓣电影Top250有10页数据,我们需要遍历所有页面进行抓取。

base_url = "https://movie.douban.com/top250"
all_movies = []for page in range(0, 250, 25):url = f"{base_url}?start={page}"response = requests.get(url, headers=headers)if response.status_code == 200:soup = BeautifulSoup(response.text, "html.parser")movies = soup.find_all("div", class_="info")for movie in movies:title = movie.find("span", class_="title").textrating = movie.find("span", class_="rating_num").textall_movies.append([title, rating])else:print(f"第{page//25 + 1}页请求失败,状态码:", response.status_code)with open("douban_top250_all.csv", mode="w", newline="", encoding="utf-8") as file:writer = csv.writer(file)writer.writerow(["电影名称", "评分"])writer.writerows(all_movies)print("所有数据已保存到douban_top250_all.csv")

3.2 处理动态内容

如果网页内容是通过JavaScript动态加载的,可以使用Selenium模拟浏览器操作。

from selenium import webdriver
from selenium.webdriver.common.by import By
import timedriver = webdriver.Chrome()
driver.get("https://movie.douban.com/top250")movies = driver.find_elements(By.CLASS_NAME, "info")
for movie in movies:title = movie.find_element(By.CLASS_NAME, "title").textrating = movie.find_element(By.CLASS_NAME, "rating_num").textprint(f"电影名称:{title},评分:{rating}")driver.quit()

4. 反爬虫策略与应对

4.1 常见的反爬虫策略

  • User-Agent检测:服务器通过检查请求头中的User-Agent来判断是否为爬虫。

  • IP封禁:频繁请求可能导致IP被封禁。

  • 验证码:某些网站会要求输入验证码。

4.2 应对策略

  • 设置合理的请求头:模拟浏览器请求,设置User-Agent

  • 使用代理IP:通过代理IP池避免IP被封禁。

  • 降低请求频率:使用time.sleep()控制请求间隔。

5. 总结

本文通过一个简单的豆瓣电影Top250爬虫实例,介绍了Python爬虫的基本流程。我们从发送HTTP请求、解析HTML到存储数据,逐步实现了一个完整的爬虫程序。此外,我们还探讨了如何处理分页和动态内容,以及应对常见的反爬虫策略。

爬虫技术虽然强大,但在使用时务必遵守相关法律法规和网站的使用条款,避免对目标网站造成不必要的负担。


参考资料

  • Requests官方文档

  • BeautifulSoup官方文档

  • Selenium官方文档

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/70286.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

请谈谈 Vue 中的响应式原理,如何实现?

一、Vue2响应式原理:Object.defineProperty的利与弊 实现原理: // 数据劫持核心实现 function defineReactive(obj, key, val) {const dep new Dep(); // 依赖收集容器Object.defineProperty(obj, key, {get() {if (Dep.target) { // 当前Watcher实例…

第6章:基于LangChain如何开发Agents,附带客户支持智能体示例

本文主要介绍了 LangChain4j 中的 Agent(代理) 概念,以及如何使用 LangChain4j 构建代理系统,重点提供了一个客户支持系统的智能体样例 代理(Agents)| LangChain4j 注意: 请注意,“A…

Android 中使用 FFmpeg 进行音视频处理

1. FFmpeg 基础知识 1.1 什么是 FFmpeg? FFmpeg 是一个开源的多媒体处理工具,支持音视频的编码、解码、转码、裁剪、合并、滤镜、流媒体等功能。它是一个命令行工具,支持多种音视频格式和编解码器。1.2 为什么在 Android 中使用 FFmpeg? Android 自带的多媒体 API(如 Med…

Matplotlib 高级图表绘制与交互式可视化(ipywidgets)

目录: ipywidgets 介绍 1. 什么是 ipywidgets 直接开始: 动态调整正弦波频率 随机散点图 启用交互式模式 使用滑块和下拉菜单调整图表样式 使用布局管理器创建复杂界面 使用动画创建动态图表 最后: 综合示例:动态仪表盘 ipywidgets 介绍 1. 什么是 ipywidgets i…

【FAQ】HarmonyOS SDK 闭源开放能力 —Live View Kit (1)

1.问题描述: 客户端创建实况窗后,通过Push kit更新实况窗内容,这个过程是自动更新的还是客户端解析push消息数据后填充数据更新?客户端除了接入Push kit和创建实况窗还需要做什么工作? 解决方案: 通过Pu…

uvm中的激励是如何发送出去的

在UVM中,Sequence生成的激励(Transaction)通过以下协作流程发送到Driver并最终驱动到DUT,其核心机制如下: --------------- --------------- ------------ ----- | Sequence | → | Seque…

SpringAI系列 - ToolCalling篇(二) - 如何设置应用侧工具参数ToolContext(有坑)

目录 一、引言二、集成ToolContext示例步骤1: 在`@Tool`标注的工具方法中集成`ToolConext`参数步骤2:`ChatClient`运行时动态设置`ToolContext`参数三、填坑一、引言 在使用AI大模型的工具调用机制时,工具参数都是由大模型解析用户输入上下文获取的,由大模型提供参数给本地…

【RabbitMQ业务幂等设计】RabbitMQ消息是幂等的吗?

在分布式系统中,RabbitMQ 自身不直接提供消息幂等性保障机制,但可通过业务逻辑设计和技术组合实现消息处理的幂等性。以下是 8 种核心实现方案及最佳实践: 一、消息唯一标识符 (Message Deduplication) 原理 每条消息携带全局唯一ID&#xff…

网络可靠性要求

目录 一、背景介绍 二、环路引发的危害 1、广播风暴 2、MAC 地址表震荡 三、STP生成树 1、STP的作用 2、STP工作过程 3、根桥选举 4、根端口选举 5、指定端口选举 6、BPDU报文分析 7、计时器 8、端口状态转化 总结 一、背景介绍 为了提高网络可靠性,交换网络…

《STL 六大组件之容器探秘:深入剖析 string》

目录 一、string 类简介二、string 类的常用接口1. 构造函数(constructor function)2. 与容量相关的接口(capacity)3. 与迭代器有关的接口(iterator)4. 与元素访问有关的接口(element access&am…

Unreal5从入门到精通之在编辑器中更新 UserWidgets

前言 在虚幻中创建越来越复杂和灵活的 UserWidget 蓝图时,一个问题是它们在编辑器中的外观与它们在游戏中的最终外观可能有很大不同。 库存面板示例 假设你想创建一个通用的库存显示小部件。我们可以在整个 UI 中使用它,无论我们需要在哪里显示某些内容。 标题,描述所显示…

计算机网络-OSI七层参考模型与数据封装,网络安全零基础入门到精通实战教程!

目录 一、网络 1、网络的定义 2、网络的分类 3、网络的作用 4、网络的数据传输方式 5、网络的数据通讯方式 二、OSI七层参考模型 1、网络参考模型定义 2、分层的意义 3、分层与功能 4、TCP\IP五层模型 三、参考模型的协议 1、物理层 2、数据链路层 3、网络层 4…

Python正则替换终极指南:用re.sub玩转字符串魔法

Python正则替换终极指南:用re.sub玩转字符串魔法 一、为什么re.sub是文本处理的瑞士军刀? 在Python的re模块中,re.sub()的周下载量突破5800万次(2025年PyPI数据),它实现了: 📍 模…

gen_gauss_filter用于检测带方向的线条

目录 一、核心参数分析 1.1 方向覆盖范围 1.2 滤波器方向带宽 二、角度配置建议 三、参数选择依据 四、实施建议 五、模拟图测试(项目图档不好直接分享) 5.1 模拟图制作 5.2 检测伪代码 在Halcon中使用高斯滤波器检测多方向线条时,角度参数的选取需要综合考虑滤波…

C++17 中的 std::to_chars 和 std::from_chars:高效且安全的字符串转换工具

文章目录 1. 传统转换方法的局限性2. std::to_chars:数值到字符串的高效转换函数原型:返回值:示例代码:输出: 3. std::from_chars:字符串到数值的高效解析函数原型:返回值:示例代码&…

深入学习解析:183页可编辑PPT华为市场营销MPR+LTC流程规划方案

华为终端正面临销售模式转型的关键时刻,旨在通过构建MPRLTC项目,以规避对运营商定制的过度依赖,并探索新的增长路径。项目核心在于建设一套全新的销售流程与IT系统,支撑双品牌及自有品牌的战略发展。 项目总体方案聚焦于四大关键议…

Python正则表达式处理中日韩字符过滤全解析

Python正则表达式处理中日韩字符过滤全解析 一、核心原理:Unicode字符范围定位 中日韩字符在Unicode中的分布: 中文:\u4e00-\u9fff(基本区) \u3400-\u4dbf(扩展A区) \U00020000-\U0002a6df…

基于WOA鲸鱼优化的WSN网络最优节点部署算法matlab仿真

目录 1.程序功能描述 2.测试软件版本以及运行结果展示 3.核心程序 4.本算法原理 5.完整程序 1.程序功能描述 鲸鱼优化算法(WOA)是一种模拟座头鲸捕食行为的元启发式优化算法。其主要原理基于座头鲸独特的 “气泡网” 捕食策略,通过数学模…

【数据分析】3 数据分析成长之路

职业发展路径: 向上发展(技术方向):可以详细说明成为数据科学家或专家所需的具体技能和步骤,包括学习的算法、工具等。向下发展(业务方向):可以探讨结合业务知识的具体领域&#xff…

excel导入Mysql中时间格式异常

问题描述: 当使用xls/xlsx/csv导入mysql中,如果列是时间类型比如excel表中显示2024/02/20 09:18:00,导入后时间可能就会变成1900-01-01 09:18:00这样。 问题原因: 这是由于excel表中和数据库中的时间类型不匹配导致。 问题解决…