新手学习爬虫的案例

首先你的电脑上肯定已经安装了python,没安装的去官网安装,我使用的是Pycharm作为操作的IDE

环境准备

安装必要的库

爬虫需要用到requests和beautifulsoup4

使用命令行或者终端运行下面的命令

pip install requests beautifulsoup4 -i https://mirrors.aliyun.com/pypi/simple

这里使用的是阿里云的镜像源,下载的快一点

下载完成之后可以使用下面这段代码检验下载的结果

import requests
from bs4 import BeautifulSoup
print("所有库安装成功!")

封面等内容的爬取

接下来是一段爬虫的代码,我们逐行对它进行讲解

import requests
from bs4 import BeautifulSoup# 1. 定义目标URL
url = "http://books.toscrape.com/"try:# 2. 发送HTTP请求response = requests.get(url)# 检查请求是否成功(状态码200表示成功)response.raise_for_status()  # 3. 解析HTML内容soup = BeautifulSoup(response.text, "html.parser")# 4. 定位所有书籍的容器books = soup.find_all("article", class_="product_pod")# 5. 遍历每个书籍容器并提取信息for book in books:# 提取书名title = book.h3.a["title"]# 提取价格price = book.find("p", class_="price_color").text# 提取评分(例如:"Three" -> 3星)rating = book.p["class"][1]# 打印结果print(f"书名: {title}")print(f"价格: {price}")print(f"评分: {rating} 星")print("-" * 50)except requests.exceptions.RequestException as e:print(f"请求失败: {e}")
except Exception as e:print(f"发生错误: {e}")

分步详解

  1. 导入库 
     import requests # 用于发送HTTP请求 from bs4 import BeautifulSoup # 用于解析HTML

     

  2. 发送HTTP请求
    url = "http://books.toscrape.com/"
    response = requests.get(url)
    response.raise_for_status()  # 如果状态码不是200,抛出异常


    requests.get(url):向目标URL发送GET请求。
    response.raise_for_status():检查请求是否成功(状态码200),失败则抛出异常。

  3. 解析HTML内容
    soup = BeautifulSoup(response.text, "html.parser")


    response.text:获取网页的HTML文本内容
    BeautifulSoup():将HTML文本转换为可操作的对象(DOM树)。

  4. 定位书籍容器
    books = soup.find_all("article", class_="product_pod")


    find_all():查找所有符合条件的目标元素。
    article 是标签名,class
    ="product_pod" 是类名(注意 class_ 的写法)。

  5. 提取书籍信息
    for book in books:title = book.h3.a["title"]  # 书名存储在a标签的title属性中price = book.find("p", class_="price_color").text  # 价格在p标签的文本中rating = book.p["class"][1]  # 评分在p标签的第二个类名中(如 "star-rating Three")


    book.h3.a["title"]:通过层级关系直接定位到书名。
    find("p", class
    ="price_color"):在书籍容器内查找价格元素。
    book.p"class":评分通过类名的第二部分获取(例如 Three 表示3星)。

  6. 错误处理
    except requests.exceptions.RequestException as e:print(f"请求失败: {e}")
    except Exception as e:print(f"发生错误: {e}")


    捕获网络请求错误和其他异常,避免程序崩溃。 运行结果示例

        运行结果示例

书名: A Light in the Attic 价格: £51.77

评分: Three 星

书名: Tipping the Velvet 价格: £53.74

评分: One 星

...

与该网站中的信息进行比对,发现爬取成功

 接下来我们进入每一本书的详情页面,并爬取该页面中的Product_Description

 详情页面爬取

将上面的代码更改为下面这一段代码

import requests
from bs4 import BeautifulSoup
import os# 目标网站
url = "http://books.toscrape.com/"# 创建文件夹保存图片
if not os.path.exists("book_covers"):os.makedirs("book_covers")try:# 发送请求response = requests.get(url)response.raise_for_status()# 解析HTMLsoup = BeautifulSoup(response.text, "html.parser")books = soup.find_all("article", class_="product_pod")for book in books:# 提取书名(用于命名图片文件)title = book.h3.a["title"].strip().replace("/", "-")  # 去除非法字符# 提取封面图片的相对路径(如:../../media/.../image.jpg)image_relative_url = book.img["src"]# 将相对路径转换为绝对URLimage_absolute_url = url + image_relative_url.replace("../", "")# 下载图片image_response = requests.get(image_absolute_url, stream=True)image_response.raise_for_status()# 保存图片到本地filename = f"book_covers/{title}.jpg"with open(filename, "wb") as f:for chunk in image_response.iter_content(1024):f.write(chunk)print(f"已下载封面: {title}")except requests.exceptions.RequestException as e:print(f"请求失败: {e}")
except Exception as e:print(f"发生错误: {e}")

分步解释

  1. 创建保存图片的文件夹
    import os
    if not os.path.exists("book_covers"):os.makedirs("book_covers")

    使用 os 模块检查并创建文件夹,避免重复下载时文件覆盖。

  2. 定位封面图片的URL

    查看图片的HTML结构: 右键点击封面图片 → 检查,发现结构如下:

    <img src="../../media/cache/2c/da/2cdad67c.../a-light-in-the-attic_1000.jpg" alt="A Light in the Attic" class="thumbnail">

    src 属性包含图片的 相对路径(如 ../../media/...)。

    处理相对路径

    相对路径需要拼接网站的完整URL:

    image_relative_url = book.img["src"]  # 例如:../../media/...
    image_absolute_url = url + image_relative_url.replace("../", "")

    url 是基础地址(All products | Books to Scrape - Sandbox)。 替换 ../ 为空字符串,得到完整路径(如 http://books.toscrape.com/media/...)。

  3. 下载并保存图片
    image_response = requests.get(image_absolute_url, stream=True)
    with open(filename, "wb") as f:for chunk in image_response.iter_content(1024):f.write(chunk)

    stream=True:以流式下载大文件,避免内存溢出。 iter_content(1024):每次下载 1024 字节的块,适合大文件。

  4. 文件名处理
    title = book.h3.a["title"].strip().replace("/", "-")
    filename = f"book_covers/{title}.jpg"

    replace("/", "-"):替换书名中的非法字符(如斜杠),避免保存文件时报错。

    运行结果

    已下载封面: A Light in the Attic 已下载封面: Tipping the Velvet 已下载封面: Soumission ... 所有封面图片会保存在 book_covers 文件夹中,文件名格式为 书名.jpg。

扩展优化

处理分页

爬取所有页面的书籍封面(观察分页URL规律,如 page-2.html):

for page in range(1, 51):  # 共50页url = f"http://books.toscrape.com/catalogue/page-{page}.html"# 发送请求并解析...

添加延迟避免封禁

在请求间添加随机延迟,模拟人类操作:

import time
import random
time.sleep(random.uniform(0.5, 2.0))  # 随机延迟0.5~2秒

错误重试机制

使用 try-except 捕获下载失败的图片并重试:

try:image_response = requests.get(...)
except requests.exceptions.RequestException:print(f"下载失败: {title}")continue  # 跳过当前,继续下一个

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/71878.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Octave3D 关卡设计插件

课程参考链接 这位大佬有在视频合集中有详细的讲解&#xff0c;个人体验过&#xff0c;感觉功能很强大 https://www.bilibili.com/video/BV1Kq4y1C72P/?share_sourcecopy_web&vd_source0a41d8122353e3e841ae0a39908c2181 Prefab资源管理 第一步 在场景中创建一个空物体…

【Transformer优化】Transformer的局限在哪?

自2017年Transformer横空出世以来&#xff0c;它几乎重写了自然语言处理的规则。但当我们在享受其惊人的并行计算能力和表征能力时&#xff0c;是否真正理解了它的局限性&#xff1f;本文将深入探讨在复杂度之外被忽视的五大核心缺陷&#xff0c;并试图在数学维度揭示其本质。 …

SpringBoot(一)--搭建架构5种方法

目录 一、⭐Idea从spring官网下载打开 2021版本idea 1.打开创建项目 2.修改pom.xml文件里的版本号 2017版本idea 二、从spring官网下载再用idea打开 三、Idea从阿里云的官网下载打开 ​编辑 四、Maven项目改造成springboot项目 五、从阿里云官网下载再用idea打开 Spri…

Python爬虫实战:一键采集电商数据,掌握市场动态!

电商数据分析是个香饽饽&#xff0c;可市面上的数据采集工具要不贵得吓人&#xff0c;要不就是各种广告弹窗。干脆自己动手写个爬虫&#xff0c;想抓啥抓啥&#xff0c;还能学点技术。今天咱聊聊怎么用Python写个简单的电商数据爬虫。 打好基础&#xff1a;搞定请求头 别看爬虫…

乐鑫打造全球首款 PSA Certified Level 2 RISC-V 芯片

乐鑫科技 (688018.SH) 荣幸宣布 ESP32-C6 于 2025 年 2 月 20 日获得 PSA Certified Level 2 认证。这一重要突破使 ESP32-C6 成为全球首款基于 RISC-V 架构获此认证的芯片&#xff0c;体现了乐鑫致力于为全球客户提供安全可靠、性能卓越的物联网解决方案的坚定承诺。 PSA 安全…

图像滑块对比功能的开发记录

背景介绍 最近&#xff0c;公司需要开发一款在线图像压缩工具&#xff0c;其中的一个关键功能是让用户直观地比较压缩前后的图像效果。因此&#xff0c;我们设计了一个对比组件&#xff0c;它允许用户通过拖动滑块&#xff0c;动态调整两张图像的显示区域&#xff0c;从而清晰…

tcc编译器教程2 编译lua解释器

本文主要介绍了使用tcc编译器编译lua解释器源码。 1 介绍 lua是一门编程语言,开源且源码很容易编译,我平时用来测试C语言编程环境时经常使用。一般能编译成功就说明编程环境设置正常。下面用之前设置好的tcc编程环境进行测试。 2 获取源码 我一般有保留多个版本的lua源码进…

Unity DOTS从入门到精通之 自定义Authoring类

文章目录 前言安装 DOTS 包什么是Authoring1. 实体组件2. Authoring类 前言 DOTS&#xff08;面向数据的技术堆栈&#xff09;是一套由 Unity 提供支持的技术&#xff0c;用于提供高性能游戏开发解决方案&#xff0c;特别适合需要处理大量数据的游戏&#xff0c;例如大型开放世…

comctl32!ListView_OnSetItem函数分析LISTSUBITEM结构中的image表示图标位置

第一部分&#xff1a; BOOL ListView_SetSubItem(LV* plv, const LV_ITEM* plvi) { LISTSUBITEM lsi; BOOL fChanged FALSE; int i; int idpa; HDPA hdpa; if (plvi->mask & ~(LVIF_DI_SETITEM | LVIF_TEXT | LVIF_IMAGE | LVIF_STATE)) { …

【算法】大数据查重

大数据查重 哈希表 找出第一个出现重复的数字 || 找所有重复出现的数字 #include <iostream> #include <vector> #include <unordered_map> #include <unordered_set> #include <stdlib.h> #include <time.h> #include <string> …

模型微调-基于LLaMA-Factory进行微调的一个简单案例

模型微调-基于LLaMA-Factory进行微调的一个简单案例 1. 租用云计算资源2. 拉取 LLaMa-Factory3. 安装依赖环境4. 启动 LLaMa-Factory 界面5. 从 Huggingface 下载模型6. 模型验证7. 模型微调 1. 租用云计算资源 以下示例基于 AutoDL 云计算资源。 在云计算平台选择可用的云计…

【单片机】ARM 处理器简介

ARM 公司简介 ARM&#xff08;Advanced RISC Machine&#xff09; 是英国 ARM 公司&#xff08;原 Acorn RISC Machine&#xff09; 开发的一种精简指令集&#xff08;RISC&#xff09; 处理器架构。ARM 处理器因其低功耗、高性能、广泛适用性&#xff0c;成为嵌入式系统、移动…

springboot的实体类字段校验的分组校验

分组校验&#xff08;Group Validation&#xff09;允许在不同的场景下对同一个实体类应用不同的校验规则。例如&#xff0c;在新增数据和更新数据时&#xff0c;可能需要对某些字段的校验规则进行调整。以下是分组校验的具体实现步骤&#xff1a; 一、定义分组接口 创建空的标…

vue3,Element Plus中隐藏树el-tree滚动条

el-tree&#xff0c;节点过多&#xff0c;默认会出现垂直滚动条&#xff0c;显得不美观 可以使用隐藏组件 el-scrollbar 将 el-tree 包裹&#xff0c;就可以隐藏垂直滚动条 <el-scrollbar> <el-tree> ... </el-tree> </el-scrollbar> /* 滚动条禁用鼠…

mysql练习

创建数据库db_ck&#xff0c;再创建表t_hero&#xff0c;将四大名著中的主要人物都插入这个表中&#xff0c;将实现过程中sql提交上上来 1、创建数据库db_ck mysql> create database db_ck; 2、创建表t_hero mysql> use db_ck Database changed mysql> create table …

svn删除所有隐藏.svn文件,文件夹脱离svn控制

新建一个文件&#xff0c;取名remove-svn-folders.reg&#xff0c;输入如下内容&#xff1a; Windows Registry Editor Version 5.00 [HKEY_LOCAL_MACHINE\SOFTWARE\Classes\Folder\shell\DeleteSVN] "Delete SVN Folders" [HKEY_LOCAL_MACHINE\SOFTWARE\Class…

文心一言:中国大模型时代的破局者与探路者

2023年&#xff0c;生成式人工智能&#xff08;AIGC&#xff09;的浪潮席卷全球&#xff0c;而百度推出的“文心一言”&#xff08;ERNIE Bot&#xff09;作为中国AI领域的代表性产品&#xff0c;迅速成为行业焦点。这款基于百度自主研发的“文心大模型”打造的对话式AI工具&am…

Ubuntu 安装docker docker-compose

Docker 通过提供轻量级、可移植且高效的解决方案&#xff0c;简化了软件开发和部署。“docker build”命令是 Docker 镜像创建过程的核心。本文将探讨 Docker 构建命令、用法以及 Docker 构建的优化。 Docker 构建有什么作用&#xff1f; Docker build 是一个命令行界面 CLI命…

Unity开发——CanvasGroup组件介绍和应用

CanvasGroup是Unity中用于控制UI的透明度、交互性和渲染顺序的组件。 一、常用属性的解释 1、alpha&#xff1a;控制UI的透明度 类型&#xff1a;float&#xff0c;0.0 ~1.0&#xff0c; 其中 0.0 完全透明&#xff0c;1.0 完全不透明。 通过调整alpha值可以实现UI的淡入淡…

每天五分钟深度学习PyTorch:向更深的卷积神经网络挑战的ResNet

本文重点 ResNet大名鼎鼎,它是由何恺明团队设计的,它获取了2015年ImageNet冠军,它很好的解决了当神经网络层数过多出现的难以训练的问题,它创造性的设计了跳跃连接的方式,使得卷积神经网络的层数出现了大幅度提升,设置可以达到上千层,可以说resnet对于网络模型的设计具…