Python 爬虫案例

以下是一些常见的 Python 爬虫案例,涵盖了不同的应用场景和技术点:
1. 简单网页内容爬取
案例:爬取网页标题和简介
import requests
from bs4 import BeautifulSoup

url = "https://www.runoob.com/"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

title = soup.title.string
description = soup.find('meta', attrs={'name': 'description'})['content']
print(f"标题: {title}")
print(f"简介: {description}")

2. 爬取图片
案例:爬取图片网站并下载图片
import os
import requests
from bs4 import BeautifulSoup

url = "https://unsplash.com/s/photos/nature"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# 创建文件夹存储图片
if not os.path.exists('images'):
    os.makedirs('images')

# 找到所有图片标签
img_tags = soup.find_all('img')
for idx, img in enumerate(img_tags):
    img_url = img['src']
    # 下载图片
    img_data = requests.get(img_url).content
    with open(f'images/img_{idx}.jpg', 'wb') as handler:
        handler.write(img_data)

3. 爬取数据并存储
案例:爬取豆瓣电影 Top250 并存储到 CSV
import csv
import requests
from bs4 import BeautifulSoup

url = "https://movie.douban.com/top250"
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

movies = []
for item in soup.select('.item'):
    title = item.select('.title')[0].get_text()
    rating = item.select('.rating_num')[0].get_text()
    director = item.select('.bd p')[0].get_text().split('\n')[1].strip().split('/')[0]
    movies.append([title, rating, director])

# 写入 CSV 文件
with open('douban_top250.csv', 'w', newline='', encoding='utf-8') as f:
    writer = csv.writer(f)
    writer.writerow(['标题', '评分', '导演'])
    writer.writerows(movies)

4. 动态网页爬取
案例:使用 Selenium 爬取动态加载的网页
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time

# 启动浏览器
driver = webdriver.Chrome()
driver.get("https://www.jd.com")

# 搜索商品
search_box = driver.find_element(By.ID, 'key')
search_box.send_keys('笔记本电脑')
search_box.send_keys(Keys.RETURN)
time.sleep(3)  # 等待页面加载

# 获取商品列表
products = driver.find_elements(By.CLASS_NAME, 'gl-item')
for product in products:
    try:
        name = product.find_element(By.CLASS_NAME, 'p-name').text
        price = product.find_element(By.CLASS_NAME, 'p-price').text
        print(f"商品: {name}, 价格: {price}")
    except Exception as e:
        print(e)

driver.quit()

5. API 数据爬取
案例:爬取 GitHub API 数据
import requests

# 获取 Python 仓库信息
url = "https://api.github.com/search/repositories?q=language:python&sort=stars"
response = requests.get(url)
data = response.json()

for item in data['items']:
    name = item['name']
    description = item['description']
    stars = item['stargazers_count']
    print(f"仓库: {name}, 描述: {description}, 星数: {stars}")

6. 爬取登录后的数据
案例:模拟登录并爬取数据
import requests

login_url = "https://example.com/login"
data_url = "https://example.com/dashboard"

# 登录信息
payload = {
    'username': 'your_username',
    'password': 'your_password'
}

# 使用会话保持登录状态
with requests.Session() as session:
    # 发送登录请求
    session.post(login_url, data=payload)
    
    # 访问需要登录的页面
    response = session.get(data_url)
    print(response.text)

注意事项
1.  遵守网站规则:在爬取之前,查看目标网站的 robots.txt 文件,了解哪些页面允许爬取。
2.  设置合理的请求间隔:避免频繁请求导致服务器压力过大或被封禁。
3.  处理反爬机制:如果遇到反爬,可以尝试使用代理 IP、设置请求头(User-Agent)等方法。
4.  合法性:确保爬取的数据和行为符合法律法规。
这些案例可以帮助你快速上手 Python 爬虫开发,根据实际需求选择合适的技术和工具。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/74747.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【C++进阶】函数:深度解析 C++ 函数的 12 大进化特性

目录 一、函数基础 1.1 函数定义与声明 1.2 函数调用 1.3 引用参数 二、函数重载:同名函数的「多态魔法」(C 特有) 2.1 基础实现 2.2 重载决议流程图 2.3 与 C 语言的本质区别 2.4 实战陷阱 三、默认参数:接口的「弹性设…

Redis的基础,经典,高级问题解答篇

目录 一,基础 二,经典 缓存雪崩: 1. Redis事务的原子性 2. 与MySQL事务的区别 1. 主从复制原理 2. 哨兵模式故障转移流程 3. 客户端感知故障转移 三,高级 一,基础 Redis的5种基础数据类型及使用场景&#xf…

【蓝桥杯】好数

好数 问题描述代码解释代码 好数 问题描述 一个整数如果按从低位到高位的顺序,奇数位 (个位、百位、万位 ⋯ ) 上的数字是奇数,偶数位 (十位、千位、十万位 ⋯ ) 上的数字是偶数,我们就称之为 “好数”。 给定一个正整数 N,请计算…

利用 Patroni + etcd + HAProxy 搭建高可用 PostgreSQL 集群

在生产环境中,数据库的高可用性是系统稳定运行的关键。本文将详细讲解如何利用 Docker 部署一个由 etcd、Patroni 和 HAProxy 组成的 PostgreSQL 高可用集群,实现自动故障转移和负载均衡。 架构概述 本架构主要包括三部分: etcd 集群 etcd …

bash 和 pip 是两种完全不同用途的命令,分别用于[系统终端操作]和[Python 包管理]

bash 和 pip 是两种完全不同用途的命令,分别用于 系统终端操作 和 Python 包管理。以下是它们的核心区别、用法及常见场景对比: 1. 本质区别 特性bashpip类型Shell 命令解释器(一种脚本语言)Python 包管理工具作用执行系统命令、…

分布式系统的CAP理论、事务和锁实现

分布式系统核心概念 1. CAP理论 CAP理论指出,分布式系统最多同时满足以下三项中的两项: 一致性(CC):所有节点访问同一份最新数据。可用性(AA):每个请求都能在合理时间内获得非错误…

鸿蒙UI开发

鸿蒙UI开发 本文旨在分享一些鸿蒙UI布局开发上的一些建议,特别是对屏幕宽高比发生变化时的应对思路和好的实践。 折叠屏适配 一般情况(自适应布局/响应式布局) 1.自适应布局 1.1自适应拉伸 左右组件定宽 TypeScript //左右定宽 Row() { …

FreeRTOS 五种内存管理算法深度对比分析

FreeRTOS 提供了五种动态内存管理算法(heap_1 至 heap_5),针对不同应用场景在实时性、内存效率、碎片控制等方面进行了差异化设计。以下从实现原理、性能指标及适用场景进行全面对比: 一、Heap_1:静态分配优先 ​核心…

基于EFISH-SBC-RK3576的无人机智能飞控与数据存储方案

一、方案背景 民用无人机在电力巡检、农业植保、应急救援等领域快速普及,但传统方案面临‌多协议设备兼容性差‌、‌野外环境数据易丢失‌、‌复杂电磁干扰‌三大痛点。 电鱼智能推出‌EFISH-SBC-RK3576‌,可集成双冗余总线接口与工业级加固存储&#x…

怎样进行服务器的日常安全监控和审计?

服务器的日常安全监控和审计是保障服务器安全运行的重要措施,以下是一些常见的方法和工具: 系统日志监控 启用日志功能:确保服务器操作系统、应用程序和数据库等都启用了详细的日志记录功能。例如,Linux 系统中的 syslog&#x…

数据库----单表、多表

数据库 create database 数据库名称;---创建数据库create database 数据库名称 default charsetutf8mb4;---创建数据库,同时指定编码show databases;---查看当前数据库管理下存在多少数据库show databases like "db_%";---查询以db_开头的数据库select d…

DeepSeek 助力 Vue3 开发:打造丝滑的表格(Table)之添加行拖拽排序功能示例6,TableView16_06 分页表格拖拽排序

前言:哈喽,大家好,今天给大家分享一篇文章!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 💕 目录 Deep…

遗传算法优化支持向量机分类是一种将遗传算法与支持向量机相结合的方法

遗传算法优化支持向量机分类是一种将遗传算法与支持向量机相结合的方法,旨在提高支持向量机的分类性能。以下是其相关内容的详细介绍: 支持向量机(SVM) 原理:SVM是一种基于统计学习理论的机器学习方法,其…

Python中的Requests库

什么是Python中的Requests模块? requests模块是Python中广泛使用的库,用于简化HTTP请求的发送和响应处理。无论是调用API、下载文件、处理复杂会话管理,requests都能提供很好的解决方案。 一、基础使用方法 1.GET请求 GET请求用于获取服务…

复习MySQL20250327

第一章 基本操作 一、管理数据库 难点:创建数据库 输入cmd的MySQL安装路径C:\Program Files\MySQL\MySQL Server 8.0\bin 1.查看所有数据库 show databases; 2.创建数据库 create database hsusers default charset utf8 collate utf8_general_ci;create data…

谷歌推出Gemini实时AI视频功能,开启智能交互新体验

3月24日,谷歌发言人亚历克斯约瑟夫向媒体证实,谷歌已开始向 Gemini Live 推出新的人工智能功能。这些功能使 Gemini 能够“看到”用户的屏幕内容,或通过智能手机摄像头获取画面,并实时回答与之相关的问题。这一创新标志着人工智能…

Windows 新型零日漏洞:远程攻击可窃取 NTLM 凭证,非官方补丁已上线

近日,安全研究人员披露了一个新型 Windows 零日漏洞,影响从Windows 7和Server 2008 R2到最新Windows 11 v24H2及Server 2025的所有Windows操作系统版本。攻击者只需诱使用户在Windows资源管理器中查看恶意文件,即可利用该零日漏洞窃取NTLM&am…

一款超级好用且开源免费的数据可视化工具——Superset

认识Superset 数字经济、数字化转型、大数据等等依旧是如今火热的领域,数据工作有一个重要的环节就是数据可视化。 看得见的数据才更有价值! 现如今依旧有多数企业号称有多少多少数据,然而如果这些数据只是呆在冷冰冰的数据库或文件内则毫无…

作业14 (2023-05-22_const修饰指针)

第1题/共5题【单选题】 C程序常见的错误分类不包含:( ) A.编译错误 B.链接错误 C.栈溢出 D.运行时错误 回答正确 答案解析: 栈溢出是运行时错误的一种,因此C程序不会将栈溢出错误单独列出来,栈溢出包含在运行时错误中。 因此:选择C 第2题/共5题【单选题】 以下关于…

《Tr0ll2 靶机渗透实战:弱口令+SUID+两种缓冲区溢出+ 提权完整+fcrackzip暴力破解+shellshock漏洞+脏牛三种root提权复盘》

Tr0ll2 1、主机发现 arp-scan -l 2、端口扫描 nmap -sS -sV 192.168.66.181 nmap -sS -A -T4 -p- 192.168.66.181 nmap --scriptvuln 192.168.66.181PORT STATE SERVICE VERSION 21/tcp open ftp vsftpd 2.0.8 or later 22/tcp open ssh OpenSSH 5.9p1 Debian 5ubuntu1.4 (…