数据采集技术之python网络爬虫(中国天气网的爬取)

一、爬取中国天气网所有地区当天的天气数据(PyCharm):

网址:https://www.weather.com.cn/

下面爬取数据:

因为现在已经到了夜间,所以白天的数据已经不见了,但原理是一样的。

二、代码以及详情解释:

 具体的代码的url以及headers是要从检查里面找的:

 

以及这些元素代码的寻找:

这个代码是一个用于从中国天气网(weather.com.cn)抓取天气信息的Python脚本。它使用了 requests 库发送HTTP请求,并使用 BeautifulSoup 库解析HTML内容。以下是代码的主要功能和相关知识点的罗列:


代码功能概述

  1. 遍历多个地区:代码通过遍历一个地区列表(area),构造不同的URL来获取不同地区的天气信息。

  2. 发送HTTP请求:使用 requests.get() 发送HTTP请求,获取网页的HTML内容。

  3. 解析HTML:使用 BeautifulSoup 解析HTML内容,提取所需的天气信息。

  4. 提取天气信息:从HTML中提取城市名称、上午天气、上午风力风向、上午最高温度、晚上天气、晚上风力风向、晚上最低温度等信息。

  5. 去重处理:使用集合 processed_cities 来避免重复处理同一个城市的天气信息。

  6. 打印结果:将提取的天气信息格式化输出到控制台。


涉及的知识点

1. Python基础
  • 列表与循环

    • 使用列表 area 存储地区代码。

    • 使用 for 循环遍历列表中的每个地区。

  • 字符串格式化

    • 使用 f-string(如 f"https://www.weather.com.cn/textFC/{page}.shtml")动态构造URL。

  • 集合(Set)

    • 使用集合 processed_cities 来存储已经处理过的城市名称,确保每个城市只被处理一次。

2. HTTP请求
  • requests 库

    • 使用 requests.get() 发送HTTP GET请求,获取网页内容。

    • 设置请求头 headers,模拟浏览器访问,避免被网站反爬虫机制拦截。

    • 使用 res.encoding = 'utf-8' 设置响应内容的编码为UTF-8,确保中文内容正确显示。

3. HTML解析
  • BeautifulSoup 库

    • 使用 BeautifulSoup(res.text, 'lxml') 解析HTML内容,lxml 是解析器。

    • 使用 soup.select() 方法通过CSS选择器查找HTML元素。

    • 使用 find() 和 find_all() 方法查找特定的HTML标签和属性。

4. HTML结构与CSS选择器
  • HTML表格结构

    • 网页中的天气信息以表格形式展示,代码通过查找 <div class="conMidtab2"> 和 <tr><td> 标签来提取数据。

  • CSS选择器

    • 使用 div.conMidtab2 选择所有 class 为 conMidtab2 的 <div> 元素。

    • 使用 tr 选择表格行,td 选择表格单元格。

  • HTML属性

    • 通过 width 属性(如 width='83')定位特定的表格单元格。

5. 数据提取与处理
  • 提取文本内容

    • 使用 .string 提取HTML标签内的文本内容(如 tr.find('td', width='83').a.string)。

  • 条件判断

    • 使用 if 语句检查是否存在某个HTML元素或属性,避免因元素不存在而报错。

  • 数据格式化与输出

    • 使用 print() 函数将提取的天气信息格式化输出。

6. 去重与集合
  • 集合(Set)

    • 使用集合 processed_cities 存储已经处理过的城市名称,利用集合的唯一性特性避免重复处理。

7. 异常处理(未显式实现)
  • 代码中没有显式的异常处理(如 try-except),但在实际应用中,建议添加异常处理机制,以应对网络请求失败或HTML解析错误等情况。


代码执行流程

  1. 遍历地区列表

    • 对每个地区代码(如 hbdb 等),构造对应的URL。

  2. 发送HTTP请求

    • 使用 requests.get() 获取网页内容。

  3. 解析HTML

    • 使用 BeautifulSoup 解析HTML,查找包含天气信息的表格。

  4. 提取天气信息

    • 遍历表格行,提取城市名称、天气、风力风向、温度等信息。

  5. 去重处理

    • 使用集合 processed_cities 避免重复处理同一城市。

  6. 输出结果

    • 将提取的天气信息格式化输出到控制台。


总结

这段代码展示了如何使用Python进行网页抓取和HTML解析,涉及的知识点包括:

  • Python基础(列表、循环、字符串格式化、集合)

  • HTTP请求(requests 库)

  • HTML解析(BeautifulSoup 库)

  • HTML结构与CSS选择器

  • 数据提取与处理

  • 去重与集合

通过这段代码,可以学习如何从网页中提取结构化数据,并将其用于进一步的分析或存储。

import requests
from bs4 import BeautifulSoup# 定义地区列表
area = ["hb", "db", "hd", "hz", "hn", "xb", "xn", "gat"]for page in area:# 构造 URLurl = f"https://www.weather.com.cn/textFC/{page}.shtml"headers = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/134.0.0.0 Safari/537.36 Edg/134.0.0.0"}# 发送 HTTP 请求获取网页内容res = requests.get(url=url, headers=headers)res.encoding = 'utf-8'  # 设置编码为 UTF-8# 使用 BeautifulSoup 解析网页内容soup = BeautifulSoup(res.text, 'lxml')# 用于存储已经处理过的城市名称processed_cities = set()# 遍历所有 class 为 conMidtab2 的 div 元素for div in soup.select('div.conMidtab2'):# 遍历 div 中的所有 tr 元素(表格行)for tr in div.select('tr'):# 检查当前行是否包含宽度为 83 的 td 元素,该元素可能包含城市信息if tr.find('td', width='83'):# 检查宽度为 83 的 td 元素中是否有 a 标签,a 标签内通常是城市名if tr.find('td', width='83').a:# 提取城市名city = tr.find('td', width='83').a.string# 如果城市已经处理过,则跳过if city in processed_cities:continue# 否则,将城市添加到已处理集合中processed_cities.add(city)# 打印城市名print(f"城市:{city}")# 提取上午天气信息morning_weather_td = tr.find('td', width='89')if morning_weather_td:morning_weather = morning_weather_td.stringprint(f"上午天气:{morning_weather}")# 提取上午风力风向信息morning_wind_td = tr.find('td', width='162')if morning_wind_td:spans = morning_wind_td.find_all('span')if len(spans) >= 2:morning_wind_1 = spans[0].stringmorning_wind_2 = spans[1].stringprint(f"上午风力风向:{morning_wind_1} {morning_wind_2}")# 提取上午最高温度morning_max_temp_td = tr.find('td', width='92')if morning_max_temp_td:morning_max_temp = morning_max_temp_td.stringprint(f"上午最高温度:{morning_max_temp}")# 提取晚上天气信息night_weather_td = tr.find('td', width='98')if night_weather_td:night_weather = night_weather_td.stringprint(f"晚上天气:{night_weather}")# 提取晚上风力风向信息night_wind_td = tr.find('td', width='177')if night_wind_td:spans = night_wind_td.find_all('span')if len(spans) >= 2:night_wind_1 = spans[0].stringnight_wind_2 = spans[1].stringprint(f"晚上风力风向:{night_wind_1} {night_wind_2}")# 提取晚上最低温度night_min_temp_td = tr.find('td', width='86')if night_min_temp_td:night_min_temp = night_min_temp_td.stringprint(f"晚上最低温度:{night_min_temp}")# 打印分隔线,用于区分不同城市的天气信息print('-----------------')else:# 如果当前行不包含宽度为 83 的 td 元素,跳过该行continue

三、代码运行结果展示:

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/897599.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

树莓集团落子海南,如何重构数字产业生态体系​

树莓集团在海南的布局&#xff0c;是其整体商业战略中的关键一环。这背后&#xff0c;是对政策机遇、产业协同、以及区域优势的深度考量。 政策机遇 海南自贸港建设带来前所未有的政策红利&#xff0c;包括贸易、投资、资金等方面的自由便利。树莓集团紧抓这一机遇&#xff0…

Ollama本地部署deepseek-r1蒸馏版

Docker安装Ollama 拉取镜像 docker pull ollama/ollama​ 启动-使用GPU docker run -d --gpusall -p 11434:11434 --name ollama ollama/ollamadocker run : Docker 的核心命令&#xff0c;用于创建并启动一个新的容器。 -d : 后台模式&#xff08;detached mode&#xff09…

41.HarmonyOS NEXT Layout布局组件系统详解(八):自定义样式与类

温馨提示&#xff1a;本篇博客的详细代码已发布到 git : https://gitcode.com/nutpi/HarmonyosNext 可以下载运行哦&#xff01; HarmonyOS NEXT Layout 布局组件系统详解&#xff08;八&#xff09;&#xff1a;自定义样式与类 文章目录 HarmonyOS NEXT Layout 布局组件系统详…

【Go | 从0实现简单分布式缓存】-7:增加etcd和gRPC功能

本文目录 1.序2.引入etcd缓存流程项目结构 3.gocachepb.proto4.服务注册register.go5.服务发现discover.go6.gRPC客户端client.gopeers.goclient.go 7.gRPC服务端实现server.go一些问题缓存获取流程缓存设置流程为什么要带超时的上下文&#xff1f; 1.序 GeeCache项目并没有引…

Pytorch系列教程:可视化Pytorch模型训练过程

深度学习和理解训练过程中的学习和进步机制对于优化性能、诊断欠拟合或过拟合等问题至关重要。将训练过程可视化的过程为学习的动态提供了有价值的见解&#xff0c;使我们能够做出合理的决策。训练进度必须可视化的两种方法是&#xff1a;使用Matplotlib和Tensor Board。在本文…

18 | 实现简洁架构的 Handler 层

提示&#xff1a; 所有体系课见专栏&#xff1a;Go 项目开发极速入门实战课&#xff1b;欢迎加入我的训练营&#xff1a;云原生AI实战营&#xff0c;一个助力 Go 开发者在 AI 时代建立技术竞争力的实战营&#xff1b;本节课最终源码位于 fastgo 项目的 feature/s14 分支&#x…

蓝队第三次

1.了解什么是盲注 盲注&#xff08;Blind SQL Injection&#xff09;是SQL注入的一种形式&#xff0c;攻击者无法直接通过页面回显或错误信息获取数据&#xff0c;而是通过观察页面的布尔状态&#xff08;真/假&#xff09;或时间延迟来间接推断数据库信息。例如&#xff0c;通…

sql server 2016 版本补丁说明

包信息和发布类型 Microsoft为创建和分发的 SQL Server 的所有软件更新包采用了标准化命名架构。 软件更新包是一个可执行文件&#xff08;.exe 或 .msi&#xff09;文件&#xff0c;其中包含一个或多个文件&#xff0c;这些文件可能应用于 SQL Server 安装以更正特定问题。 …

STM32之I2C硬件外设

注意&#xff1a;硬件I2C的引脚是固定的 SDA和SCL都是复用到外部引脚。 SDA发送时数据寄存器的数据在数据移位寄存器空闲的状态下进入数据移位寄存器&#xff0c;此时会置状态寄存器的TXE为1&#xff0c;表示发送寄存器为空&#xff0c;然后往数据控制寄存器中一位一位的移送数…

从青铜到王者:六大排序算法实战解析

前言 在编程的世界里,排序算法如同一颗璀璨的明珠,闪耀着智慧的光芒。它不仅是计算机科学的基础知识点,更是每一位程序员必备的技能。今天,就让我们一同走进排序算法的世界,深入探究冒泡排序、选择排序、插入排序、快速排序、归并排序、堆排序这六大经典算法的精髓所在,…

小程序配置webview

1.在微信公众平台配置业务域名 1&#xff09;包括把校验文件放在服务器根目录 2&#xff09;配置域名 2.在小程序中 新建文件 小程序新建页面&#xff1a;web-view json配置&#xff1a;{ "pageOrientation": "landscape", "renderer":&qu…

不用 Tomcat?SpringBoot 项目用啥代替?

在SpringBoot框架中&#xff0c;我们使用最多的是Tomcat&#xff0c;这是SpringBoot默认的容器技术&#xff0c;而且是内嵌式的Tomcat。 同时&#xff0c;SpringBoot也支持Undertow容器&#xff0c;我们可以很方便的用Undertow替换Tomcat&#xff0c;而Undertow的性能和内存使…

线索二叉树构造及遍历算法

线索二叉树构造以及遍历算法 线索二叉树&#xff08;中序遍历版&#xff09;构造线索二叉树构造双向线索链表遍历中序线索二叉树 线索二叉树&#xff08;中序遍历版&#xff09; 中序遍历找到对应结点的前驱&#xff08;土方法&#xff09; #mermaid-svg-eunGO5d2GhjLxCn5 {fo…

基于SpringBoot的“体育购物商城”的设计与实现(源码+数据库+文档+PPT)

基于SpringBoot的“体育购物商城”的设计与实现&#xff08;源码数据库文档PPT) 开发语言&#xff1a;Java 数据库&#xff1a;MySQL 技术&#xff1a;SpringBoot 工具&#xff1a;IDEA/Ecilpse、Navicat、Maven 系统展示 系统总体模块设计 前台用户登录界面 系统首页界面…

数据篇| App爬虫入门(一)

App 的爬取相比 Web 端爬取更加容易,反爬虫能力没有那么强,而且数据大多是以 JSON 形式传输的,解析更加简单。在 Web 端,我们可以通过浏览器的开发者工具监听到各个网络请求和响应过程,在 App 端如果想要查看这些内容就需要借助抓包软件。常见抓包软件有: ‌工具名称‌‌…

go context学习

1.Context接口2.emptyCtx3.Deadline()方法4.Done()方法5.Err方法6.Value方法&#xff08;&#xff09;7.contex应用场景8.其他context方法 1.Context接口 Context接口只有四个方法&#xff0c;以下是context源码。 type Context interface {Deadline() (deadline time.Time, …

在VMware Workstation Pro上轻松部署CentOS7 Linux虚拟机

首先我们需要下载VM虚拟机和Centos7的镜像 下载并安装VMware Workstation Pro 访问VMware Workstation Pro官网下载 https://www.vmware.com/ 第二步&#xff1a;下载centos7镜像 访问centos官网下载 https://www.centos.org/ 开始部署Centos7 点击创建新的虚拟机 这里是Cen…

Jsoup 解析商品信息时需要注意哪些细节?

在使用Jsoup解析商品信息时&#xff0c;需要注意以下细节和最佳实践&#xff0c;以确保爬虫的稳定性和数据的准确性&#xff1a; 1. 检查HTML文档的合法性 在解析之前&#xff0c;需要确认所解析的文档是否是一份合法正确的HTML文档。如果HTML结构不完整或存在错误&#xff0…

Android AudioFlinger(五)—— 揭开AudioMixer面纱

前言&#xff1a; 在 Android 音频系统中&#xff0c;AudioMixer 是音频框架中一个关键的组件&#xff0c;用于处理多路音频流的混音操作。它主要存在于音频回放路径中&#xff0c;是 AudioFlinger 服务的一部分。 上一节我们讲threadloop的时候&#xff0c;提到了一个函数pr…

go的”ambiguous import in multiple modules”

执行“go mod tidy”报如下错误&#xff1a; go mod tidy -compat1.17 go: finding module for package github.com/gomooon/goredis go: found github.com/gomooon/goredis in github.com/gomooon/goredis v0.3.5 go: github.com/gomooon/core importsgithub.com/gomooon/gor…