初学者如何用 Python 写第一个爬虫?
一、爬虫的基本概念
(一)爬虫的定义
爬虫,英文名为 Web Crawler,也被叫做网络蜘蛛、网络机器人。想象一下,有一个勤劳的小蜘蛛,在互联网这个巨大的蜘蛛网中穿梭。它能够模拟人类用户浏览网页的行为,自动地在网页间跳转,其主要目的就是从网页里精准地提取出我们想要的特定内容。比如说,你想知道某电商平台上某款手机的所有评论,或者某个新闻网站上关于特定主题的所有文章,爬虫就可以帮你快速获取这些信息。
(二)爬虫的主要工作流程
发送请求:依据 HTTP 协议,就像是你去商店买东西要遵循商店的规则一样,爬虫按照这个规则向目标网页发起请求。它会带着一些必要的信息,比如告诉网页它想要获取什么内容,然后得到网页的 HTML 源代码,这就像是拿到了商店给你的商品清单。例如,当你在浏览器地址栏输入一个网址并回车,浏览器就会按照 HTTP 协议向对应的服务器发送请求,获取网页内容,爬虫也是类似的原理。
解析数据:获取到的 HTML 内容就像是一团杂乱的线球,里面包含了很多我们不需要的信息。解析数据这一步就是要把这团线球理顺,精准地提取出我们真正需要的数据。比如从 HTML 代码中找到网页的标题、正文内容、图片链接等等。可以把这一步想象成从一堆杂物中挑出你需要的宝贝。
存储数据:将提取出的数据妥善保存起来,就像你把买到的宝贝放在合适的地方,方便后续进一步处理与分析。可以保存到文件中,比如常见的 txt 文本文件,也可以保存到数据库里,方便进行数据的管理、查询等操作。
(三)常用 Python 工具
requests:它是一个用于高效发送 HTTP 请求的库。使用它就像给网页发送一封 “邮件”,轻松获取网页内容。比如,你想获取百度首页的内容,使用 requests 库几行代码就能搞定。它支持多种请求方式,如 GET、POST 等,满足不同场景下的需求。
BeautifulSoup:这个库专注于解析 HTML 或 XML 数据,能把复杂的 HTML 结构转化为 Python 对象,让我们可以很方便地提取特定内容。它就像是一个专业的 “整理师”,把 HTML 代码整理得井井有条,我们可以轻松地找到自己想要的标签和内容。例如,要找到网页中的所有链接,使用 BeautifulSoup 就能快速实现。
re(正则表达式):正则表达式就像是一个强大的 “搜索工具”,可以精准匹配并提取复杂文本中的特定模式。比如,当你要从一段文本中找出所有符合邮箱格式的字符串,或者提取出所有的电话号码,正则表达式就能发挥巨大作用。它有一套自己独特的语法规则,掌握了这些规则,就能在文本处理中如鱼得水。
pandas:在数据清洗与分析方面表现出色,是处理数据的得力助手。它可以对爬取到的数据进行清洗、转换、分析等操作。例如,将爬取到的杂乱无章的数据整理成整齐的表格形式,方便进行数据分析和可视化展示。
二、环境搭建
(一)安装 Python
确保你的计算机已安装 Python,建议使用 3.7 及以上版本。如果还没有安装,别担心,这很简单。你可以前往 Python 官方网站(https://www.python.org/),在网站上找到下载按钮,根据你计算机的系统(Windows、Mac 或 Linux)选择对应的安装包进行下载。下载完成后,按照安装向导的提示一步步进行安装即可。安装过程中,记得勾选添加 Python 到系统路径选项,这样在后续使用命令行时就能更方便地调用 Python 了。
(二)安装必要库
安装好 Python 后,接下来要安装我们编写爬虫所需的库。打开命令行或终端(在 Windows 系统中可以通过搜索 “命令提示符” 找到,Mac 系统中可以在 “应用程序 - 实用工具” 中找到 “终端”)。在命令行中运行以下命令来安装所需的 Python 库:
pip install requests beautifulsoup4
这里的pip
是 Python 的包管理工具,就像一个软件管家,通过它可以方便地安装、升级和卸载 Python 库。requests
库用于发送 HTTP 请求,beautifulsoup4
库用于解析 HTML 数据。安装过程中,命令行会显示安装进度,耐心等待安装完成即可。
三、编写第一个简单爬虫
现在,我们就来动手实现一个简单的爬虫,目标是抓取某个网页的标题与正文内容。比如说,我们以一个简单的示例网页https://example.com为例(实际使用时你可以替换为你感兴趣的网页,但要注意网页的使用条款和法律规定,确保合法合规地进行数据爬取)。
(一)完整代码示例
import requestsfrom bs4 import BeautifulSoupdef simple_crawler(url):try:# 发送HTTP请求response = requests.get(url)# 检查请求状态response.raise_for_status()# 解析HTML数据soup = BeautifulSoup(response.text, 'html.parser')# 提取网页标题title = soup.find('title').text# 提取网页正文段落paragraphs = soup.find_all('p')print(f"网页标题: {title}")print("网页内容:")# 遍历并打印段落内容for p in paragraphs:print(p.text)except requests.exceptions.RequestException as e:print(f"请求失败: {e}")url = "https://example.com"simple_crawler(url)
(二)代码逐步解析
发送 HTTP 请求
response = requests.get(url)
这一行代码使用requests.get()
方法向目标网址发起 GET 请求。这里的url
就是我们要爬取的网页地址。requests.get()
方法会返回一个response
对象,这个对象包含了网页的全部内容,其中就有我们需要的 HTML 源代码。就好比你向一个地方发送了一个请求,对方给你寄回了一个包裹,这个包裹里装着网页的信息。
- 检查请求状态
response.raise_for_status()
这行代码借助raise_for_status()
方法来检查请求是否成功。HTTP 协议中有很多状态码,比如 200 表示请求成功,404 表示网页未找到,500 表示服务器内部错误等。如果返回的 HTTP 状态码代表错误,raise_for_status()
方法就会触发异常,这样我们就能知道请求过程中出现了问题。这就像是你收到包裹后,先检查一下包裹是否完好无损,如果有问题就及时发现。
- 解析 HTML 数据
soup = BeautifulSoup(response.text, 'html.parser')
这一步使用BeautifulSoup
库来解析 HTML 内容。response.text
就是前面获取到的网页 HTML 源代码,'html.parser'
指定使用 Python 内置的 HTML 解析器。BeautifulSoup
会把 HTML 内容转化为一个便于操作的 Python 对象,就像把杂乱的物品整理分类,方便我们后续查找和提取需要的信息。
- 提取网页内容
title = soup.find('title').textparagraphs = soup.find_all('p')
find('title')
方法用于精准定位 HTML 代码中的<title>
标签,并通过.text
获取标签内的文本内容,也就是网页的标题。find_all('p')
方法则是提取所有的段落标签<p>
,并以列表的形式呈现。这就像是在整理好的物品中,专门挑出标题和所有段落的物品。
- 打印结果
for p in paragraphs:print(p.text)
这部分代码通过一个循环遍历提取到的段落内容,并逐一打印每个段落的文本。这样我们就能在控制台看到网页的标题和正文内容了。就像你把挑出的段落物品一个一个拿出来展示。
四、优化爬虫功能
(一)添加请求头
有些网站很 “聪明”,会识别并阻止爬虫程序的访问。这时候,我们可以通过添加请求头来模拟浏览器的访问行为,让网站以为是真实用户在访问。比如:
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"}response = requests.get(url, headers=headers)
这里的headers
就是我们设置的请求头,User - Agent
字段模拟了一个 Chrome 浏览器的信息。当我们发送请求时,带上这个请求头,网站就更有可能允许我们访问。
(二)控制爬取频率
为了避免对目标网站造成过大负载,我们可以在每次请求后合理设置延时。比如:
import timedef delay_request(url):response = requests.get(url)time.sleep(2)return response
在这个函数中,使用time.sleep(2)
让程序暂停 2 秒后再继续执行下一次请求。这样可以减轻目标网站的压力,也能避免因为频繁请求而被网站封禁。
(三)保存数据
将爬取到的数据妥善保存至文件或数据库中。
保存至文件:
with open("output.txt", "w", encoding="utf - 8") as f:f.write(f"标题: {title}n")for p in paragraphs:f.write(p.text + "n")
这段代码使用with open()
语句打开一个名为output.txt
的文件,以写入模式("w"
),并指定编码为utf - 8
。然后将网页标题和段落内容逐行写入文件中。
- 保存至 CSV 文件:
import csvwith open("output.csv", "w", newline="", encoding="utf - 8") as csvfile:writer = csv.writer(csvfile)writer.writerow(("段落内容"))for p in paragraphs:writer.writerow((p.text))
这里使用csv
模块将数据保存为 CSV 文件。先创建一个csv.writer
对象,然后写入表头"段落内容"
,再将每个段落内容逐行写入文件。
五、应对复杂网页
(一)动态加载网页
对于由 JavaScript 渲染的网页,requests
库无法获取完整内容,因为它不会执行 JavaScript 代码。这时候我们可以选用selenium
或playwright
。以selenium
为例:
from selenium import webdriverurl = "https://example.com"driver = webdriver.Chrome()driver.get(url)html = driver.page_source
首先导入webdriver
模块,然后创建一个Chrome
浏览器驱动对象(需要提前下载对应版本的 ChromeDriver 并配置好路径)。通过driver.get(url)
方法打开网页,driver.page_source
可以获取到经过 JavaScript 渲染后的完整网页源代码,这样就能进一步解析和提取我们需要的数据了。
(二)处理 AJAX 请求
有些网页会通过 AJAX 请求来动态加载数据。要处理这种情况,我们需要分析网页的网络请求,找到 AJAX 请求的 URL 和参数。比如,在 Chrome 浏览器中,打开网页后按 F12 键,进入开发者工具,切换到 “Network” 选项卡,刷新网页,就能看到网页发起的所有请求。找到 AJAX 请求对应的 URL,然后使用requests
库模拟发送这个请求,获取数据。例如:
ajax_url = "https://example.com/ajax - data"params = {"param1": "value1", "param2": "value2"}response = requests.get(ajax_url, params=params)data = response.json()
这里ajax_url
是 AJAX 请求的 URL,params
是请求参数,通过requests.get()
方法发送请求,假设返回的数据是 JSON 格式,使用.json()
方法将其解析为 Python 的字典或列表形式,方便进一步处理。
结语
恭喜你,勇敢的编程探险家!你已经成功迈出了用 Python 编写爬虫的第一步,这是一段充满无限可能的奇妙旅程的开始。也许在这个过程中,你遇到了一些挑战,比如代码报错、数据提取不准确,但请相信,每一次解决问题都是一次成长。
学会 Python 之后,你的世界将变得更加广阔。在数据领域,你可以轻松地从互联网上收集大量数据,进行数据分析和挖掘,发现隐藏在数据背后的规律和价值,无论是用于学术研究、商业决策还是个人兴趣项目都非常有用。在自动化办公方面,Python 爬虫可以帮你自动获取工作中需要的信息,如市场数据、行业报告等,大大提高工作效率。甚至在网络安全领域,你可以利用爬虫技术进行漏洞扫描和安全评估。所以,不要停下脚步,继续探索 Python 的世界,不断学习和实践,你会发现自己的潜力远超想象,能够创造出令人惊叹的作品。加油,未来的编程大师就是你!