实战案例:采集 51job 企业招聘信息

爬虫代理

本文将带你从零开始,借助 Feapder 快速搭建一个企业级招聘信息数据管道。在“基础概念”部分,我们先了解什么是数据管道和 Feapder;“生动比喻”用日常场景帮助你快速理解爬虫组件;“技术场景”介绍本项目中如何使用代理等采集策略;“实战案例”通过完整代码演示采集 51job 招聘信息并分类存储;最后在“扩展阅读”推荐一些进一步学习的资源。无论你是非技术背景的产品经理,还是校园里的同学,都能轻松上手,快速构建自己的企业级爬虫管道。

一、基础概念

1. 什么是数据管道?

  • 数据管道(Data Pipeline)指的是从数据源(如网页、API)到数据仓库(如数据库、文件)的整个流转过程,通常包括数据获取、清洗、存储和监控。
  • 在企业级场景下,管道需要稳定可靠、易于扩展,并支持重试、分布式、监控告警等能力。

2. 为什么选 Feapder?

  • 轻量易用:基于 Scrapy 设计理念,但更贴合现代 Python 开发习惯。
  • 分布式支持:内置分布式队列和调度,水平扩展无压力。
  • 插件丰富:支持自定义中间件、Pipeline,持久化、监控简单接入。
  • 示例生态:官方及社区提供多种行业示例,快速上手。

二、生动比喻

想象你要送快递:

  1. 分拣中心:接收并整理包裹(任务调度)
  2. 配送员:拿着包裹去各个地址(爬虫 Worker)
  3. 快递柜:存放收集好的包裹(Pipeline 存储)
  4. 后台系统:监控每个包裹的状态(监控告警)

Feapder 就是整个快递系统的“物流总控”,帮你把每个环节串起来,保证数据顺利、稳定地流转到最终存储。

三、技术场景

在企业级爬虫中,我们常常会遇到以下需求:

1. 使用代理 IP

  • 提升并发时避免 IP 限流和封禁
  • 引入爬虫代理:
# 亿牛云爬虫代理示例 www.16yun.cn
域名: proxy.16yun.cn 
端口: 12345  
用户名: 16YUN  
密码: 16IP

2. 设置 Cookie 和 User-Agent

  • Cookie:保持登录态或跑通多页
  • User-Agent:模拟浏览器请求,降低反爬几率

Feapder 支持在中间件中统一管理这些参数,代码简洁、易维护。

四、实战案例:采集 51job 企业招聘信息

下面我们以 https://www.51job.com 为例,演示如何用 Feapder 搭建完整的爬虫管道,采集岗位名称、职位信息、工作地址、薪资待遇,并分类存储到本地 JSON 文件。

1. 环境准备

# 安装 Feapder 及依赖
pip install feapder requests

2. 项目结构

feapder_job_pipeline/
├── spider.py         # 主爬虫脚本
├── settings.py       # 配置文件
└── pipelines.py      # 数据存储模块

3. 配置文件 settings.py

# settings.py# ---------- 分布式及队列配置(可选) ----------
# REDIS_HOST = "127.0.0.1"
# REDIS_PORT = 6379
# REDIS_PASSWORD = None# ---------- 代理设置 亿牛云代理示例 www.16yun.cn------
PROXY = {"domain": "proxy.16yun.cn", # 亿牛云代理域名"port": 8100,             # 代理端口"username": "16YUN",     # 代理用户名"password": "16IP",     # 代理密码
}# ---------- 中间件配置 ----------
DOWNLOADER_MIDDLEWARES = {# 自定义代理中间件"middlewares.ProxyMiddleware": 500,# Feapder 默认 UserAgent 中间件# "feapder.downloadermiddleware.useragent.UserAgentMiddleware": 400,
}# ---------- Pipeline 配置 ----------
ITEM_PIPELINES = {"pipelines.JsonPipeline": 300,
}

4. 自定义中间件 middlewares.py

# middlewares.py
import base64
from feapder import Requestclass ProxyMiddleware:"""通过亿牛云代理发送请求的中间件"""def process_request(self, request: Request):# 构造代理认证字符串auth_str = f"{request.setting.PROXY['username']}:{request.setting.PROXY['password']}"b64_auth = base64.b64encode(auth_str.encode()).decode()# 设置 request.meta 中的 proxyrequest.request_kwargs.setdefault("proxies", {"http": f"http://{request.setting.PROXY['domain']}:{request.setting.PROXY['port']}","https": f"http://{request.setting.PROXY['domain']}:{request.setting.PROXY['port']}"})# 注入 Proxy-Authorization 头request.request_kwargs.setdefault("headers", {})["Proxy-Authorization"] = f"Basic {b64_auth}"return request

5. 数据存储 pipelines.py

# pipelines.py
import json
import os
from feapder import Itemclass JobItem(Item):"""定义岗位信息结构"""def __init__(self):self.position = Noneself.company = Noneself.location = Noneself.salary = Noneclass JsonPipeline:"""将数据按照公司分类存储到 JSON 文件"""def open_spider(self, spider):# 创建存储目录self.base_path = spider.setting.get("DATA_PATH", "./data")os.makedirs(self.base_path, exist_ok=True)def process_item(self, item: JobItem, spider):# 按公司名称分类存储company = item.company or "unknown"file_path = os.path.join(self.base_path, f"{company}.json")# 追加写入with open(file_path, "a", encoding="utf-8") as f:f.write(json.dumps(dict(item), ensure_ascii=False) + "\n")return item

6. 爬虫脚本 spider.py

# spider.py
from feapder import Spider, Request
from pipelines import JobItem
import randomclass JobSpider(Spider):"""Feapder 爬虫:采集 51job 企业招聘信息"""def start_requests(self):# 入口 URL,搜索“Python 开发”岗位url = "https://search.51job.com/list/000000,000000,0000,00,9,99,Python开发,2,1.html"yield Request(url, callback=self.parse_list)def parse_list(self, request, response):# 解析列表页中的每个岗位链接for job in response.xpath("//div[@class='el']/p[@class='t1']/span/a"):job_url = job.xpath("./@href").extract_first()yield Request(job_url, callback=self.parse_detail)# 分页(示例:最多采集前 5 页)if int(request.url.split(",")[-1].split(".")[0]) < 5:next_page = int(request.url.split(",")[-1].split(".")[0]) + 1next_url = request.url.replace(f",{int(request.url.split(',')[-1].split('.')[0])}.html", f",{next_page}.html")yield Request(next_url, callback=self.parse_list)def parse_detail(self, request, response):"""解析岗位详情页"""item = JobItem()item.position = response.xpath("//h1/text()").extract_first().strip()     # 岗位名称item.company = response.xpath("//a[@class='catn']/text()").extract_first().strip()  # 公司名称item.location = response.xpath("//span[@class='lname']/text()").extract_first().strip()  # 工作地点item.salary = response.xpath("//span[@class='salary']/text()").extract_first().strip()   # 薪资待遇yield itemdef download_midware(self, request):"""在请求中注入 Cookie 与 User-Agent"""headers = {# 随机选择常见浏览器 UA"User-Agent": random.choice(["Mozilla/5.0 (Windows NT 10.0; Win64; x64)...","Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7)..."]),# 示例 Cookie,可根据需要替换"Cookie": "your_cookie_string_here"}request.request_kwargs.setdefault("headers", {}).update(headers)return requestif __name__ == "__main__":JobSpider(**{"project_name": "feapder_job_pipeline",# 可选:指定本地分布式队列# "redis_key": "job_spider_requests",# "processes": 4,}).start()

7. 运行与结果

python spider.py
  • 运行后,./data/ 目录下会出现以公司名命名的 JSON 文件,每行一条岗位信息。

五、扩展阅读

  • Feapder 官方文档:https://feapder.com/
  • Scrapy 官方文档(原理参考):https://docs.scrapy.org/
  • 爬虫代理使用指引:登录亿牛云官网查看“文档中心”
  • 同类案例:使用 Playwright 架构多语言爬虫(可对比)

通过本文演示,你已经掌握了如何用 Feapder 快速构建一个带有代理、Cookie、User-Agent 的企业级爬虫管道,并能将数据分类存储。接下来可以尝试接入数据库、监控告警,或将爬虫部署到 Kubernetes 集群,打造真正的生产级数据管道。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/905720.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

GMT之Bash语言使用

GMT的操作有自己的逻辑和“命令”&#xff0c;但GMT是可以用Bash语言控制的&#xff0c;所以常常以.sh为后缀写GMT程序。 GMT程序运行步骤如下&#xff1a; 采用cd &#xff0c;定位到指定文件夹&#xff1b;以sh ***.sh运行GMT&#xff0c;得到结果。 另外&#xff0c;遇到…

整合Redis

整合Redis 引入依赖 <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-data-redis</artifactId> </dependency> <dependency><groupId>org.apache.commons</groupId><art…

Vue3——Watch侦听器

目录 手动指定监听对象 侦听ref对象 侦听ref对象中的某个属性 reactive写法 watchEffect 自动侦听 多源侦听 一次性侦听器 watch 是⼀个⽤于观察和响应Vue响应式系统中数据变化的⽅法。它允许你指定⼀个数据源&#xff08;可以是 响应式引⽤、计算属性、组件的属性等&#xf…

1、数据结构与算法(Python版-啃书)-绪论

1.1 计算机问题求解 一般而言&#xff0c;人们需要的不是解决一个具体问题的程序&#xff0c;而是解决一类问题的程序。 对于求平方根这样的简单问题&#xff0c;人们希望的也不是专用于求某个数(例如2)的平方根的函数&#xff0c;而是能求任何数的平方根的函数。 用计算机解…

微信小程序之将轮播图设计为组件

在components文件夹上点右键&#xff0c;新建component&#xff0c;命名为swiper 然后将我们之前的代码都拷贝到对应文件中&#xff0c; 然后我们的页面要引用这个组件&#xff0c; 在pages\index\index.json中引入&#xff1a; { "usingComponents": {"van…

【视频】解决FFmpeg将RTSP转RTMP流时,出现的卡死、出错等问题

【视频】郭老二博文之:图像视频汇总 1、简述 如果不修改图像内容,可以使用FFmpeg命令来将RTSP转RTMP流。 SRS视频服务器就是这么干的,它没有使用FFmpeg接口,而是直接使用FFmpeg命令来转流。 但是在使用中,约到了一些问题,比如转流时卡死、转流出错等等,下面描述怎么解…

报销单业务笔记

文章目录 业务点业务点-对公对私业务点-多系统标志 特殊业务入参入参报文 出参出参报文中间的逻辑多对多关系 其他应该是整体成功还是可以部分成功这种多对多关多关系有没有优雅的判断方式 报销单是个通用场景&#xff0c;有通用逻辑&#xff0c;在此基础上进行适度定制&#x…

25软考【软件评测师】:10天极限冲刺攻略(附知识点解析+冲刺攻略)

距离2025上半年“软件评测师”考试已经只剩最后一周多了&#xff0c;还没有准备好的小伙伴赶紧行动起来。为了帮助大家更好的冲刺学习&#xff0c;特此提供一份考前冲刺攻略。本指南包括考情分析、冲刺攻略两个部分&#xff0c;可以参考此指南进行最后的复习要领&#xff0c;相…

python 的 ​uv、pip​ 和 ​conda​ 对比和技术选型

你好&#xff0c;我是 shengjk1&#xff0c;多年大厂经验&#xff0c;努力构建 通俗易懂的、好玩的编程语言教程。 欢迎关注&#xff01;你会有如下收益&#xff1a; 了解大厂经验拥有和大厂相匹配的技术等 希望看什么&#xff0c;评论或者私信告诉我&#xff01; 文章目录 一…

Python logging模块使用指南

Python 的 logging 模块是一个灵活且强大的日志记录工具&#xff0c;广泛应用于应用程序的调试、运行监控和问题排查。它提供了丰富的功能&#xff0c;包括多级日志记录、多种输出方式、灵活的格式配置等。以下是详细介绍&#xff1a; 一、为什么使用 logging 模块&#xff1f;…

开发技术.前端开发相关问题

第一部分 响应式布局 1. 几个布局单位概念 PX: px像素&#xff08;Pixel&#xff09; 相对长度单位。像素px是相对于显示器屏幕分辨率而言的。 PX特点 1. IE无法调整那些使用px作为单位的字体大小&#xff1b; 2. 国外的大部分网站能够调整的原因在于其使用了em或rem作为字体…

1. Go 语言环境安装

&#x1f451; 博主简介&#xff1a;高级开发工程师 &#x1f463; 出没地点&#xff1a;北京 &#x1f48a; 人生目标&#xff1a;自由 ——————————————————————————————————————————— 版权声明&#xff1a;本文为原创文章&#xf…

WPF自定义控件开发全指南:多内容切换与动画集成

WPF自定义控件开发全指南&#xff1a;多内容切换与动画集成 一、控件基础架构设计1.1 选择控件基类1.2 定义关键属性 二、动画系统集成2.1 淡入淡出动画实现2.2 滑动动画实现 三、视觉状态管理四、完整使用示例4.1 XAML声明4.2 动画触发逻辑 五、扩展与优化5.1 性能优化建议5.2…

数据结构 -- 顺序查找和折半查找

查找的基本概念 基本概念 查找&#xff1a;在数据集合中寻找满足某种条件的数据元素的过程 查找表&#xff08;查找结构&#xff09;&#xff1a;用于查找的数据集合称为查找表&#xff0c;它由同一类型的数据结构元素&#xff08;或记录&#xff09;组成 关键字&#xff1…

汽车功能安全--TC3xx MBIST设计要点

英飞凌针对硬件故障的自测&#xff0c;提供了四种机制&#xff1a;PBIST、LBIST、MONBIST和MBIST。 LBIST和MONBIST我们已经聊过了&#xff0c;今天就快速介绍下MBIST。 MBIST&#xff0c;全程Memory Built-in Self Test&#xff0c;用于检测SRAM数据单元的完整性。 在26262…

openpi 入门教程

系列文章目录 目录 系列文章目录 前言 一、运行要求 二、安装 三、模型检查点 3.1 基础模型 3.2 微调模型 四、运行预训练模型的推理 五、在自己的数据上微调基础模型 5.1. 将数据转换为 LeRobot 数据集 5.3. 启动策略服务器并运行推理 5.4 更多示例 六、故障排除…

java加强 -Collection集合

集合是一种容器&#xff0c;类似于数组&#xff0c;但集合的大小可变&#xff0c;开发中也非常常用。Collection代表单列集合&#xff0c;每个元素&#xff08;数据&#xff09;只包含1个值。Collection集合分为两类&#xff0c;List集合与set集合。 特点 List系列集合&#…

深入理解ThingsBoard的Actor模型

1、ThingsBoard系统中定义了哪些Actor ✅ ThingsBoard Actor 创建机制与作用对照表: Actor 类型 何时创建 由谁创建 是否缓存 作用描述 SystemActor 系统启动时 DefaultActorService / ActorSystem ✅ 是 ★ ThingsBoard 平台服务级别管理器:负责创建所有的Actor AppActor

WPS一旦打开,就会修改默认打开方式,怎么解?

目录 前言 解决方法 结语 前言 电脑上同时存在WPS和微软的Office全家桶&#xff0c;但是我更喜欢用Office全家桶。前几天刚在设置改过来&#xff0c;忘记更改pdf文件打开默认应用。结果没过几天&#xff0c;不小心用WPS打开pdf文件时候&#xff0c;给我把默认设置全改回去了…

深度学习中--模型调试与可视化

第一部分&#xff1a;损失函数与准确率的监控&#xff08;Loss / Accuracy Curve&#xff09; 1. 为什么要监控 Loss 与 Accuracy&#xff1f; Loss 是模型优化的依据&#xff0c;但它可能下降了 Accuracy 反而没变&#xff08;过拟合信号&#xff09; Accuracy 才是评估效果的…