初学者如何用 Python 写第一个爬虫？

一、爬虫的基本概念

（一）爬虫的定义

爬虫，英文名为 Web Crawler，也被叫做网络蜘蛛、网络机器人。想象一下，有一个勤劳的小蜘蛛，在互联网这个巨大的蜘蛛网中穿梭。它能够模拟人类用户浏览网页的行为，自动地在网页间跳转，其主要目的就是从网页里精准地提取出我们想要的特定内容。比如说，你想知道某电商平台上某款手机的所有评论，或者某个新闻网站上关于特定主题的所有文章，爬虫就可以帮你快速获取这些信息。

（二）爬虫的主要工作流程

发送请求：依据 HTTP 协议，就像是你去商店买东西要遵循商店的规则一样，爬虫按照这个规则向目标网页发起请求。它会带着一些必要的信息，比如告诉网页它想要获取什么内容，然后得到网页的 HTML 源代码，这就像是拿到了商店给你的商品清单。例如，当你在浏览器地址栏输入一个网址并回车，浏览器就会按照 HTTP 协议向对应的服务器发送请求，获取网页内容，爬虫也是类似的原理。

解析数据：获取到的 HTML 内容就像是一团杂乱的线球，里面包含了很多我们不需要的信息。解析数据这一步就是要把这团线球理顺，精准地提取出我们真正需要的数据。比如从 HTML 代码中找到网页的标题、正文内容、图片链接等等。可以把这一步想象成从一堆杂物中挑出你需要的宝贝。

存储数据：将提取出的数据妥善保存起来，就像你把买到的宝贝放在合适的地方，方便后续进一步处理与分析。可以保存到文件中，比如常见的 txt 文本文件，也可以保存到数据库里，方便进行数据的管理、查询等操作。

（三）常用 Python 工具

requests：它是一个用于高效发送 HTTP 请求的库。使用它就像给网页发送一封 “邮件”，轻松获取网页内容。比如，你想获取百度首页的内容，使用 requests 库几行代码就能搞定。它支持多种请求方式，如 GET、POST 等，满足不同场景下的需求。

BeautifulSoup：这个库专注于解析 HTML 或 XML 数据，能把复杂的 HTML 结构转化为 Python 对象，让我们可以很方便地提取特定内容。它就像是一个专业的 “整理师”，把 HTML 代码整理得井井有条，我们可以轻松地找到自己想要的标签和内容。例如，要找到网页中的所有链接，使用 BeautifulSoup 就能快速实现。

re（正则表达式）：正则表达式就像是一个强大的 “搜索工具”，可以精准匹配并提取复杂文本中的特定模式。比如，当你要从一段文本中找出所有符合邮箱格式的字符串，或者提取出所有的电话号码，正则表达式就能发挥巨大作用。它有一套自己独特的语法规则，掌握了这些规则，就能在文本处理中如鱼得水。

pandas：在数据清洗与分析方面表现出色，是处理数据的得力助手。它可以对爬取到的数据进行清洗、转换、分析等操作。例如，将爬取到的杂乱无章的数据整理成整齐的表格形式，方便进行数据分析和可视化展示。

二、环境搭建

（一）安装 Python

确保你的计算机已安装 Python，建议使用 3.7 及以上版本。如果还没有安装，别担心，这很简单。你可以前往 Python 官方网站（https://www.python.org/），在网站上找到下载按钮，根据你计算机的系统（Windows、Mac 或 Linux）选择对应的安装包进行下载。下载完成后，按照安装向导的提示一步步进行安装即可。安装过程中，记得勾选添加 Python 到系统路径选项，这样在后续使用命令行时就能更方便地调用 Python 了。

（二）安装必要库

安装好 Python 后，接下来要安装我们编写爬虫所需的库。打开命令行或终端（在 Windows 系统中可以通过搜索 “命令提示符” 找到，Mac 系统中可以在 “应用程序 - 实用工具” 中找到 “终端”）。在命令行中运行以下命令来安装所需的 Python 库：

pip install requests beautifulsoup4

这里的pip是 Python 的包管理工具，就像一个软件管家，通过它可以方便地安装、升级和卸载 Python 库。requests库用于发送 HTTP 请求，beautifulsoup4库用于解析 HTML 数据。安装过程中，命令行会显示安装进度，耐心等待安装完成即可。

三、编写第一个简单爬虫

现在，我们就来动手实现一个简单的爬虫，目标是抓取某个网页的标题与正文内容。比如说，我们以一个简单的示例网页https://example.com为例（实际使用时你可以替换为你感兴趣的网页，但要注意网页的使用条款和法律规定，确保合法合规地进行数据爬取）。

（一）完整代码示例

import requestsfrom bs4 import BeautifulSoupdef simple_crawler(url):try:# 发送HTTP请求response = requests.get(url)# 检查请求状态response.raise_for_status()# 解析HTML数据soup = BeautifulSoup(response.text, 'html.parser')# 提取网页标题title = soup.find('title').text# 提取网页正文段落paragraphs = soup.find_all('p')print(f"网页标题: {title}")print("网页内容:")# 遍历并打印段落内容for p in paragraphs:print(p.text)except requests.exceptions.RequestException as e:print(f"请求失败: {e}")url = "https://example.com"simple_crawler(url)

（二）代码逐步解析

发送 HTTP 请求

response = requests.get(url)

这一行代码使用requests.get()方法向目标网址发起 GET 请求。这里的url就是我们要爬取的网页地址。requests.get()方法会返回一个response对象，这个对象包含了网页的全部内容，其中就有我们需要的 HTML 源代码。就好比你向一个地方发送了一个请求，对方给你寄回了一个包裹，这个包裹里装着网页的信息。

检查请求状态

response.raise_for_status()

这行代码借助raise_for_status()方法来检查请求是否成功。HTTP 协议中有很多状态码，比如 200 表示请求成功，404 表示网页未找到，500 表示服务器内部错误等。如果返回的 HTTP 状态码代表错误，raise_for_status()方法就会触发异常，这样我们就能知道请求过程中出现了问题。这就像是你收到包裹后，先检查一下包裹是否完好无损，如果有问题就及时发现。

解析 HTML 数据

soup = BeautifulSoup(response.text, 'html.parser')

这一步使用BeautifulSoup库来解析 HTML 内容。response.text就是前面获取到的网页 HTML 源代码，'html.parser'指定使用 Python 内置的 HTML 解析器。BeautifulSoup会把 HTML 内容转化为一个便于操作的 Python 对象，就像把杂乱的物品整理分类，方便我们后续查找和提取需要的信息。

提取网页内容

title = soup.find('title').textparagraphs = soup.find_all('p')

find('title')方法用于精准定位 HTML 代码中的<title>标签，并通过.text获取标签内的文本内容，也就是网页的标题。find_all('p')方法则是提取所有的段落标签<p>，并以列表的形式呈现。这就像是在整理好的物品中，专门挑出标题和所有段落的物品。

打印结果

for p in paragraphs:print(p.text)

这部分代码通过一个循环遍历提取到的段落内容，并逐一打印每个段落的文本。这样我们就能在控制台看到网页的标题和正文内容了。就像你把挑出的段落物品一个一个拿出来展示。

四、优化爬虫功能

（一）添加请求头

有些网站很 “聪明”，会识别并阻止爬虫程序的访问。这时候，我们可以通过添加请求头来模拟浏览器的访问行为，让网站以为是真实用户在访问。比如：

headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"}response = requests.get(url, headers=headers)

这里的headers就是我们设置的请求头，User - Agent字段模拟了一个 Chrome 浏览器的信息。当我们发送请求时，带上这个请求头，网站就更有可能允许我们访问。

（二）控制爬取频率

为了避免对目标网站造成过大负载，我们可以在每次请求后合理设置延时。比如：

import timedef delay_request(url):response = requests.get(url)time.sleep(2)return response

在这个函数中，使用time.sleep(2)让程序暂停 2 秒后再继续执行下一次请求。这样可以减轻目标网站的压力，也能避免因为频繁请求而被网站封禁。

（三）保存数据

将爬取到的数据妥善保存至文件或数据库中。

保存至文件：

with open("output.txt", "w", encoding="utf - 8") as f:f.write(f"标题: {title}n")for p in paragraphs:f.write(p.text + "n")

这段代码使用with open()语句打开一个名为output.txt的文件，以写入模式（"w"），并指定编码为utf - 8。然后将网页标题和段落内容逐行写入文件中。

保存至 CSV 文件：

import csvwith open("output.csv", "w", newline="", encoding="utf - 8") as csvfile:writer = csv.writer(csvfile)writer.writerow(("段落内容"))for p in paragraphs:writer.writerow((p.text))

这里使用csv模块将数据保存为 CSV 文件。先创建一个csv.writer对象，然后写入表头"段落内容"，再将每个段落内容逐行写入文件。

五、应对复杂网页

（一）动态加载网页

对于由 JavaScript 渲染的网页，requests库无法获取完整内容，因为它不会执行 JavaScript 代码。这时候我们可以选用selenium或playwright。以selenium为例：

from selenium import webdriverurl = "https://example.com"driver = webdriver.Chrome()driver.get(url)html = driver.page_source

首先导入webdriver模块，然后创建一个Chrome浏览器驱动对象（需要提前下载对应版本的 ChromeDriver 并配置好路径）。通过driver.get(url)方法打开网页，driver.page_source可以获取到经过 JavaScript 渲染后的完整网页源代码，这样就能进一步解析和提取我们需要的数据了。

（二）处理 AJAX 请求

有些网页会通过 AJAX 请求来动态加载数据。要处理这种情况，我们需要分析网页的网络请求，找到 AJAX 请求的 URL 和参数。比如，在 Chrome 浏览器中，打开网页后按 F12 键，进入开发者工具，切换到 “Network” 选项卡，刷新网页，就能看到网页发起的所有请求。找到 AJAX 请求对应的 URL，然后使用requests库模拟发送这个请求，获取数据。例如：

ajax_url = "https://example.com/ajax - data"params = {"param1": "value1", "param2": "value2"}response = requests.get(ajax_url, params=params)data = response.json()

这里ajax_url是 AJAX 请求的 URL，params是请求参数，通过requests.get()方法发送请求，假设返回的数据是 JSON 格式，使用.json()方法将其解析为 Python 的字典或列表形式，方便进一步处理。

结语

恭喜你，勇敢的编程探险家！你已经成功迈出了用 Python 编写爬虫的第一步，这是一段充满无限可能的奇妙旅程的开始。也许在这个过程中，你遇到了一些挑战，比如代码报错、数据提取不准确，但请相信，每一次解决问题都是一次成长。

学会 Python 之后，你的世界将变得更加广阔。在数据领域，你可以轻松地从互联网上收集大量数据，进行数据分析和挖掘，发现隐藏在数据背后的规律和价值，无论是用于学术研究、商业决策还是个人兴趣项目都非常有用。在自动化办公方面，Python 爬虫可以帮你自动获取工作中需要的信息，如市场数据、行业报告等，大大提高工作效率。甚至在网络安全领域，你可以利用爬虫技术进行漏洞扫描和安全评估。所以，不要停下脚步，继续探索 Python 的世界，不断学习和实践，你会发现自己的潜力远超想象，能够创造出令人惊叹的作品。加油，未来的编程大师就是你！