爬虫入门教程(一)

爬虫入门教程

1.什么是爬虫

爬虫是一种自动获取网站数据的程序或脚本。它可以自动模拟人类访问网站,获取网页源代码,解析并提取出所需的数据

爬虫的工作原理类似于搜索引擎的索引程序,它们会按照预定的规则和算法在互联网上不断地爬取网页,收集信息并建立索引,以便用户可以通过搜索引擎来查找并获取所需的信息。

爬虫通常会从一个起始网址开始,然后根据超链接逐步地遍历整个网站或整个互联网。它们会访问网页的内容,抓取文本、图片、视频等数据,并对这些数据进行处理和分析。爬虫可以用于各种目的,如搜索引擎优化、数据挖掘、信息收集、监控等。

2.爬虫基础知识

在学习爬虫前,需要掌握以下基础知识:

2.1URL

URL是统一资源定位符(Uniform Resource Locator)的缩写,它是互联网上用于标识和定位资源(如网页、图片、视频等)的地址。URL通常由几个部分组成,包括协议、主机名、路径和可选的查询参数和片段标识符。

一个典型的URL的格式如下:

协议://主机名/路径?查询参数#片段标识符

(1)协议(Protocol):指定了访问资源所需的协议,常见的协议有HTTP、HTTPS、FTP、SMTP等。
(2)主机名(Host):标识了资源所在的主机或服务器的域名或IP地址。
(3)路径(Path):指定了服务器上资源的具体位置,用来定位资源在服务器上的存储位置。
(4)查询参数(Query Parameters):可选部分,用来传递额外的参数给服务器,通常以键值对的形式存在,多个参数之间用&符号分隔。
(5)片段标识符(Fragment Identifier):可选部分,用来指定资源中的特定部分,例如网页内的锚点。

举例来说,下面是一个典型的URL:

https://www.example.com/blog/article?id=123#section2

协议: HTTPS
主机名: www.example.com
路径是:/blog/article
查询参数: id=123
片段标识符:section2

通过URL,用户可以方便地访问互联网上的各种资源,浏览网页、下载文件、观看视频等。网络爬虫也是通过解析URL来访问网页并提取数据的。

2.2HTTP协议

HTTP(HyperText Transfer Protocol)是一种用于传输超文本数据(如 HTML)的应用层协议,是万维网的数据通信基础。HTTP是无状态的协议,即每个请求都是独立的,服务器不会维护关于客户端的状态信息。
HTTP通信过程:
在这里插入图片描述
HTTP请求由以下几部分组成:

(1)请求行:包括请求方法(GET、POST等)、请求的URL和协议版本。
(2)请求头部:包含关于请求的附加信息,如Accept、User-Agent等。
(3)请求主体:可选部分,在POST请求中包含提交的数据。

HTTP响应由以下几部分组成:

(1)状态行:包括协议版本、状态码和状态消息。
(2)响应头部:包含响应的附加信息,如Content-Type、Content-Length等。
(3)响应主体和空行:包含实际返回的数据。

2.3HTML/XML

大多数网站使用HTML作为展示内容的标记语言。解析HTML可以提取出页面文本、链接和其他有用信息。XML也是一种常见的结构化数据表示形式。

(1)标签和元素:了解HTML和XML的标签结构以及如何定义元素。
(2)属性:了解标签中的属性以及如何提取和利用这些属性。
(3)文本和注释:理解如何处理文本内容和注释。
(4)嵌套结构:了解标签如何嵌套以构建文档结构。

2.4其他

其他相关知识,比如正则表达式、Json格式处理、JS渲染页面解析、数据库存储等。同时不同国家和地区对互联网数据收集有不同的法律法规。编写爬虫时必须遵守相关法律,避免侵犯他人权益。

3.爬虫流程

一般爬虫开发包含以下步骤:

  1. 确定需求和目标
  2. 分析目标网站结构
  3. 编写爬虫代码
  4. 测试和运行爬虫
  5. 存储和后处理数据
  6. 部署上线和维护

3.1确定需求和目标

明确需要采集哪些网站的哪些数据,以及数据将用于什么目的。这一步决定了爬虫的开发重点和复杂程度。例如爬取网址https://qq.yh31.com/zjbq/的图片
在这里插入图片描述

3.2分析目标网站结构

分析待采集网站的URL路径设计、链接结构、反爬虫策略等,为编写高效稳定的爬虫代码做准备。可用开发者工具等方式辅助分析。

3.3编写爬虫代码

根据需求和分析结果,选择Python、Java等编程语言,结合第三方网络库如Requests等,编写完成各模块的爬虫代码,包括:

  • 链接提取
  • 网页下载
  • 内容解析
  • 数据存储
  • 调度控制

示例代码:

import re
import requests
import os# 网站URL
url = "https://qq.yh31.com/zjbq/"# 发送请求获取网页HTML代码
response = requests.get(url)
html_content = response.content.decode("utf-8")# 使用正则表达式匹配所有JPG图片链接
pattern = r'<img\s+src="(http[s]?://[^"]+\.jpg)"'
image_urls = re.findall(pattern, html_content)# 创建文件夹用于存储下载的图片
folder_name = "downloaded_images"
if not os.path.exists(folder_name):os.makedirs(folder_name)# 下载图片并保存到本地
for i, image_url in enumerate(image_urls, start=1):try:response = requests.get(image_url)image_data = response.content# 构造图片文件名image_name = f"{folder_name}/image_{i}.jpg"# 保存图片到本地with open(image_name, "wb") as file:file.write(image_data)print(f"Downloaded {image_url} as {image_name}")except Exception as e:print(f"Error downloading {image_url}: {e}")print("Download completed.")

3.4测试和运行爬虫

编写完爬虫代码后,先在测试环境中运行检查是否正常工作。如果运行正常无误,可以部署在更大规模的环境下长期运行采集数据。在这里插入图片描述
在这里插入图片描述

3.5存储和后处理数据

采集的数据需要存储并进行必要的后处理,以满足不同的使用需求。可存储为文本文件、数据库等多种格式。后处理包括数据清洗、格式化等步骤。

3.6部署上线和维护

对于长期自动运行的大规模爬虫系统,需要做好容灾、负载均衡、代理IP池等工作,保证稳定高效运行。同时监控和分析日志,持续改进和优化爬虫,维护其健壮性和可扩展性。

4.爬虫库和框架

为了方便快速构建爬虫程序,开发者贡献了诸多优秀的第三方库和框架,大大提高了爬虫开发效率。

常见的Python爬虫库和框架包括:

  • Requests: 功能强大的网络请求库
  • Scrapy: 由Scrapy团队维护的爬虫框架
  • PySpider: 支持分布式的爬虫框架
  • Selenium: 自动控制浏览器的工具
  • PyQuery: 方便解析HTML的库

5.反爬虫策略

网站为了防止被恶意爬虫扫描,采取了各种反爬虫策略,主要包括:

  • 用户识别
  • 限制访问频率
  • IP黑名单和白名单
    -验证码机制
  • Javascript指纹检测
  • 蜜罐链接陷阱

爬虫开发者需要针对不同策略制定相应的应对措施,如设置随机User Agent、使用代理IP池、极验验证码破解等,让爬虫更加人性化,避免被服务器拦截或封杀。

总结

这是一个大致的爬取教程,后续的文章将为大家详细讲解爬虫的知识以及具体的操作。在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/802236.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

二维相位解包裹理论算法和软件【全文翻译-掩膜切割算法(4.4)】

4.4 掩膜切割算法 在上一节中,我们了解到质量引导路径跟踪算法可以解决一些相位解包问题,而在这些问题上,戈尔茨坦算法会因为分支切割的错位而失败。这是因为质量引导方法采用了更多的信息(质量图)来引导解包路径。在本节中,我们将这一想法与戈尔茨坦算法相结合,产生了…

k8s知识

k8s是用于容器编排和管理的&#xff0c;docker或者ctr是k8s的运行时&#xff0c;k8s通过容器运行时来启动容器&#xff0c;容器启动需要镜像&#xff0c;镜像可以用docker构建&#xff0c;dockerfile就是用于自定义如何构建镜像&#xff0c;所以上面那套流水线就是先用dockerfi…

iperf3使用记录

安装 大部分系统标配工具&#xff1a; yum install -y iperf3参数 常用的参数如下&#xff0c;其他参数请-h Server or Client:-p, --port # server port to listen on/connect to-f, --format [kmgtKMGT] format to report: Kbits, Mbits, Gbits, Tbits-i,…

【Android】java中如何判断设备是否在root状态

前言 客户需求&#xff0c;需要判断设备是否执在root状态。可以理解为是否执行了adb root 设置root状态&#xff0c;已经adb unroot设置unroot状态。 代码分析 分析adb deamon发现&#xff1a;在执行adb root 、adb unroot指令时&#xff0c;系统会更新service.adb.root 变量…

Linux|从 STDIN 读取 Awk 输入

简介 在之前关于 Awk 工具的系列文章中&#xff0c;主要探讨了如何从文件中读取数据。但如果你希望从标准输入&#xff08;STDIN&#xff09;中读取数据&#xff0c;又该如何操作呢&#xff1f; 在本文中&#xff0c;将介绍几个示例&#xff0c;展示如何使用 Awk 来过滤其他命令…

即插即用篇 | YOLOv8引入Haar小波下采样 | 一种简单而有效的语义分割下采样模块

本改进已集成到 YOLOv8-Magic 框架。 下采样操作如最大池化或步幅卷积在卷积神经网络(CNNs)中被广泛应用,用于聚合局部特征、扩大感受野并减少计算负担。然而,对于语义分割任务,对局部邻域的特征进行池化可能导致重要的空间信息丢失,这有助于逐像素预测。为了解决这个问题…

mysql 查询变量@i:=@i+1

学习完mysql的查询&#xff1a;基本查询&#xff0c;连接查询和子查询和mysql 正则表达式查询&#xff0c;接下来先学习下变量查询。 mysql中没有oracle序列号那一列。mysql可以使用查询变量的方式去处理。我们先了解下查询变量&#xff0c;后面应用起来就更清晰。 1&#xff0…

vue在鼠标光标指定位置插入文字

1、html <el-button type"primary" click"addScriptParameters(item.name)">{{ item.name }}</el-button> 2、js const addScriptParameters (name) > { if (name) { const text parameter.value.$refs.textarea if (document.selection…

“弱智吧”才是人类面对AI的最后一道堡垒

在 AI 的研究领域中&#xff0c;语言模型的训练数据选择一直是一个关键问题。传统的智慧告诉我们&#xff0c;高质量的数据集应该是由专家精心挑选和校对的文本组成&#xff0c;以确保模型学习到的语言是规范、准确、有文化内涵的。 然而&#xff0c;最近的一项研究颠覆了这一观…

【Java】Java中类的初始化顺序(静态方法,静态块,非静态块,最后有流程图)

&#x1f4dd;个人主页&#xff1a;哈__ 期待您的关注 在日常使用Java的时候&#xff0c;我们都接触过new这个关键字&#xff0c;那你是否知道在我们的对象真正创建出来之前都做了哪些事情呢&#xff1f; 实际上要去判断一个类的初始化的顺序&#xff0c;需要分一下情况&…

String 和 StringBuffer、StringBuilder 的区别是什么

不可变性&#xff1a; String类是不可变的&#xff0c;即一旦创建了String对象&#xff0c;就不能修改它的值。每次对String对象的操作都会创建一个新的String对象&#xff0c;导致内存开销较大。 StringBuffer和StringBuilder类是可变的&#xff0c;它们允许修改已有的字符串…

Bean的默认名称

1.使用spring的注解 Component、Repository、Service、Controller 等注解去把一个类配置为bean时&#xff0c;如果不指定bean的名称&#xff0c;那么bean的名称的默认规则是&#xff1a; ①类名的首字母小写&#xff0c;例如&#xff1a;类名称 UserDao &#xff0c;那么默认的…

hadoop中hdfs的fsimage文件与edits文件

hadoop中hdfs的fsimage文件与edits文件的作用 首先&#xff0c;我们抛出fsimage和edits文件的功能描述。 Fsimage文件: HDFS文件系统元数据的一个永久性的检查点&#xff0c;其中包含HDFS文件系统的 所有目录和文件inode的序列化信息。 Edits文件:存放HDFS文件系统的所有更…

C++笔记:STL容器库的使用

前置&#xff1a; 对于stl容器库&#xff0c;我只做了一些常用的笔记&#xff0c;关于更详细的使用可以参考:https://cppreference.com/https://cppreference.com/ 一.string--字符串 对于C中string字符串会比C语言的字符数组使用起来会顺手许多。 命名空间&#xff1a;std 关于…

二分最大值最小化-力扣-打家劫舍4

沿街有一排连续的房屋。每间房屋内都藏有一定的现金。现在有一位小偷计划从这些房屋中窃取现金。 由于相邻的房屋装有相互连通的防盗系统&#xff0c;所以小偷 不会窃取相邻的房屋 。 小偷的 窃取能力 定义为他在窃取过程中能从单间房屋中窃取的 最大金额 。 给你一个整数数…

蓝桥杯备考随手记: 二分查找

二分查找&#xff08;Binary Search&#xff09;是一种在有序数组中查找目标值的算法&#xff0c;也称为折半查找。它通过将目标值与数组的中间元素进行比较&#xff0c;来确定目标值在数组的哪一部分&#xff0c;然后将搜索范围缩小一半&#xff0c;再次比较&#xff0c;直到找…

使用串口给ESP8266发送AT指令无反应解决

解决方法&#xff1a;重新烧录固件 设置PC机波特率 设置PC机上的端口波特率和flash下载工具中的波特率一致&#xff0c;否则flash下载工具会一直提示串口连接失败。我这里将PC机上的串口波特率设置为115200&#xff0c;然后flash下载工具波特率也设置为115200 Windows系统上…

电脑远程控制esp32上的LED

1、思路整理 首先esp32需要连接上wifi 然后创建udp socket 接受udp数据 最后解析数据&#xff0c;控制LED 2、micropython代码实现 import network from socket import * from machine import Pin p2Pin(2,Pin.OUT)def do_connect(): #连接wifi wlan network.WLAN(network.…

芒果YOLOv8改进组合157:动态标签分配ATSS+新颖高效AsDDet检测头组合改进,共同助力VisDrone涨点1.8%,小目标高效涨点

💡本篇内容:【芒果YOLOv8改进ATSS标签分配策略|第三集】芒果YOLOv8改进组合157:动态标签分配ATSS+新颖高效AsDDet检测头组合改进,共同助力VisDrone涨点1.8%,小目标高效涨点 💡🚀🚀🚀本博客 标签分配策略ATSS改进+ 新颖高效AsDDet检测头组合改进,适用于 YOLOv8 …

超详细解读Transformer框架

Transformer是由谷歌大脑2017年在论文《Attention is All You Need》中提出的一种序列到序列(Seq2Seq)模型。自提出伊始&#xff0c;该模型便在NLP和CV界大杀四方&#xff0c;多次达到SOTA效果。NLP领域中&#xff0c;我们所熟知的BERT和GPT就是从Transformer中衍生出来的预训练…