爬虫学习——Item封装数据与Item Pipeline处理数据

一、Item封装数据

对于有字段的数据,最好的数据结构维护方法为字典类型(dict),但是由于字典不便于携带元数据和传递给其他组件使用,故可以使用Item类封装爬取到的数据。

这里涉及两个类:Item基类和Field类

两者的使用关系如下:首先创建一个自定义的Item类,命名为BestItem()该类继承于Item类,然后使用Field()来对各字段进行创建对象,即cost=Field()

即总的使用格式为:

From scrapy import Item,FieldClass BestItem():Cost=Field()Information=Field()

然后将创建好的BestItem导入创建爬虫类的文件中进行使用,并对其进行专门的解析和提取。类和类之间可以互相进行继承,实现功能字段的拓展:class VeryBestItem(BestItem)

二、Item Pipeline处理数据

一个Item Pipeline只负责一种功能的数据处理,但是可以使用多个,实现对多个功能的处理。类似流水线处理一样。如果在某一个Item Pipeline处理时抛出异常,那么这个数据将不再传递给后面的Item Pipeline进行处理,也不会导出到文件中,而是直接被抛弃。

Item Pipeline处理的场景为:清洗数据、验证数据的有效性、数据去重、将数据写入特定的文件或数据库、数据增强、数据聚合、数据脱敏/加密、数据单位换算、依赖外部API补充数据和错误恢复和机器学习模型等。

对该方法的使用很简单:只需要专注于实现某一功能,而不需要在意是否需要继承特定基类。

其在实际应用中必须实现的方法:
①open_spider(self,spider)用于在开始处理数据之前完成某些初始化的工作,比如连接数据库

②close_spider(self,spider)用于在处理完所有数据之后完成某些清理工作,比如关闭数据库连接。

③from_crawler(cls,crawler)用于根据crawler.settings读取配置创建Item Pipeline对象。

④process_item(self ,item,spider)用于对数据进行处理。

如何想使用Item Pipeline这个组件(可选),需要在配置文件settings.py中进行配置。其配置为:ITEM_PIPELINES={“每一个Item Pipeline类的导入路径,值为0~1000的数字,该数字的大小决定了Item Pipeline处理数据的先后次序,数字小的在前”}

重点:将爬取的数据可以直接存入数据库MongoDB,使用Item Pipeline就可以完成这个任务。在使用MongoDB时,需要导入import pymongo

整体实现流程:

From scrapy.item import Item
Import pymongo
Class MongoDBpipeline(object):db_url=”mongodb://localhost:8888/” //数据库的url地址db_name=”data_db”//数据库名Def  open_spider(self,spider)://连接数据库Self.client=pymongo.MongoClient(self.db_url)Self.db=self.client[self.db_name]Def  close_spider(self,spider)://关闭数据库连接Self.client.close()Def  process_item(self,item,spider)://进行数据处理Collection=self.db[spider.name]Post=dict(item) if isinstance(item,Item) else itemCollection.insert_one(post)//insert_one传入的必须为一个字典对象,不能是Item对象,故在此之前对其进行类型判断Return item
------------------------------------------------------------------
更改配置文件settings.py:ITEM_PIPELINES={“MongoDBPipeline的路径”:300
}
MongoDB_url=”mongodb://localhost:8888/”
Mongo_DB_name=”data_db”
--------------------------------------------------------------
更改另外一个配置文件crawler.settings:
Def  from_crawler(cls,crawler):Cls.db_url=crawler.settings.get(“MongoDB_url”,”mongodb://localhost:8888/”)Cls.db_name=crawler.settings.get(“Mongo_DB_name”,”data_db”)Return cls()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/78250.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【React】状态管理 Context API \ MobX \ Redux

Context APIMobXRedux React有自己状态管理,周边生态也有很多状态管理 Context API 直接从react中引入并调用即可,context包含两个东西: Provider:提供商(翻译),提供数据;属性&…

RK3588上编译opencv 及基于c++实现图像的读入

参考博文: https://blog.csdn.net/qq_47432746/article/details/147203889 一、安装依赖包 sudo apt install build-essential cmake git pkg-config libgtk-3-dev libavcodec-dev libavformat-dev libswscale-dev libv4l-dev libxvidcore-dev libx264-dev libjpe…

MATLAB 训练CNN模型 yolo v4

学生对小车控制提出了更好的要求,能否加入深度学习模型。 考虑到小车用matlab来做,yolo v5及以上版本都需要在pytorch下训练,还是用早期版本来演示。 1 yolov4 调用 参考 trainYOLOv4ObjectDetector (mathworks.com) name "tiny-yo…

Windows下使用 VS Code + g++ 开发 Qt GUI 项目的完整指南

🚀 使用 VS Code g 开发 Qt GUI 项目的完整指南(Windows MSYS2) 本指南帮助你在 Windows 下使用 VS Code g CMake Qt6 快速搭建 Qt GUI 项目,适合熟悉 Visual Studio 的开发者向跨平台 VS Code 工具链迁移。 🛠️…

开源漏洞扫描器:OpenVAS

一、OpenVAS介绍 OpenVAS (Open Vulnerability Assessment System) 是一款功能强大的开源漏洞扫描器。它由 Greenbone Networks 开发和维护,是 Greenbone 安全管理器 (GSM) 产品的基础,同时也有免费的社区版本(Greenbone Community Edition&…

Redis Pipeline 详解

Redis Pipeline 详解 Redis 无 Pipeline 耗时情况 : #mermaid-svg-8RIiJyeBO0uIrWjr {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-8RIiJyeBO0uIrWjr .error-icon{fill:#552222;}#mermaid-svg-8RIiJyeBO0uIrWjr .…

2025.04.24【3D】3D绘图入门指南

Nifty graph A contribution by Matt Asher. 3D animation A 3D animated scatterplot made with R and rgl. 文章目录 Nifty graph3D animation 2025.04.24【3D】| 3D绘图入门指南什么是3D绘图?为什么使用3D绘图?如何在R中进行3D绘图?安装…

[特殊字符] 分布式事务中,@GlobalTransactional 与 @Transactional 到底怎么配合用?

在微服务架构中,随着系统模块的拆分,单体应用中的本地事务已经无法满足跨服务的数据一致性需求。此时,我们就需要引入分布式事务解决方案,比如 Seata。在使用 Seata 的过程中,很多人会遇到一个常见的疑问: …

TDengine 集群高可用方案设计(二)

四、TDengine 集群高可用方案设计 4.1 硬件与网络架构设计 服务器选型:选择配置高、稳定性强的服务器,如戴尔 PowerEdge R740xd、华为 RH2288H V5 等。以戴尔 PowerEdge R740xd 为例,它配备英特尔至强可扩展处理器,具备高性能计…

从对数变换到深度框架:逻辑回归与交叉熵的数学原理及PyTorch实战

目录 前言 一、连乘变连加二、最小化损失函数2.1交叉熵2.2 二分类交叉熵2.3 多分类交叉熵三、逻辑回归与二分类3.1 逻辑回归与二分类算法理论讲解3.1.1 散点输入3.1.2 前向计算3.1.3 Sigmoid函数引入3.1.4 参数初始化3.1.5 损失函数3.1.6 开始迭代3.1.7 梯度下降显示四、基于框…

高企复审奖补!2025年合肥市高新技术企业重新认定奖励补贴政策及申报条件

一、合肥市高新技术企业重新认定奖励补贴政策 (一)高新区高新技术企业重新认定复审补贴奖励 重新认定为国家高新技术企业的给予5万元一次性奖励。 (二)经开区高新技术企业重新认定复审补贴奖励 对重新认定的企业,给…

Spring Boot 中配置线程池时优化 `ThreadPoolTaskExecutor` 的配置总结

在 Spring Boot 中配置线程池时,可以通过以下方式进一步优化 ThreadPoolTaskExecutor 的配置,提升性能、灵活性和可靠性: 优化点 1:合理设置线程池参数 关键参数调整 Bean(name "taskExecutor") public Executor tas…

opencv 图像的旋转

图像的旋转 1 单点旋转2. 图片旋转(cv2.getRotationMatrix2D)3. 插值方法3.1 最近邻插值(cv2.INTER_NEAREST)3.2 双线性插值(cv2.INTER_LINEAR)3.3 像素区域插值(cv2.INTER_AREA)3.4 双三次插值(cv2.INTER_CUBIC&#…

如何在 Odoo 18 中配置自动化动作

如何在 Odoo 18 中配置自动化动作 Odoo是一款多功能的业务管理平台,旨在帮助各种规模的企业更高效地处理日常运营。凭借其涵盖销售、库存、客户关系管理(CRM)、会计和人力资源等领域的多样化模块,Odoo 简化了业务流程&#xff0c…

每日两道leetcode

345. 反转字符串中的元音字母 - 力扣(LeetCode) 题目 给你一个字符串 s ,仅反转字符串中的所有元音字母,并返回结果字符串。 元音字母包括 a、e、i、o、u,且可能以大小写两种形式出现不止一次。 示例 1:…

【SQL 基础入门 1. -- SQL 基本语法详解及举例】

文章目录 SQL 数据库创建及使用删除数据库SQL 查看数据空中有哪些表格SQL 创建表格SQL 修改表格列数据格式SQL 表格插入数据SQL 查看表格类型组成SQL 查看表格中的内容 SQL 查询语句SQL 查看指定列SQL 选择指定列SQL 按指定列进行升序排序SQL 平均值/求和/最大值/最小值 SQL 数…

PostgreSQL 分区表——范围分区SQL实践

PostgreSQL 分区表——范围分区SQL实践 1、环境准备1-1、新增原始表1-2、执行脚本新增2400w行1-3、创建pg分区表-分区键为创建时间1-4、创建24年所有分区1-5、设置默认分区(兜底用)1-6、迁移数据1-7、创建分区表索引 2、SQL增删改查测试2-1、查询速度对比…

Apache Flink 深度解析:流处理引擎的核心原理与生产实践指南

Apache Flink 深度解析:流处理引擎的核心原理与生产实践指南 引言:实时计算的范式革命 2023年双十一期间,某头部电商平台基于Flink构建的实时风控系统成功拦截了每秒超过120万次的异常交易请求。这背后是Apache Flink作为第四代计算引擎的强…

【Java学习笔记】选择结构

选择结构 内容结构 一、顺序结构 二、分支控制 (1)单分支 (2)双分支 (3)多分支 (4)嵌套分支 (5)switch 分支结构 三、switch和if的比较 一、顺序结构…

03_JavaScript

文章目录 一、概述1.1、JavaScript简介1.2、JavaScript组成部分1.3、为什么要学习JavaScript1.4、学习的目的1.5、JavaScript与Java的关系 二、使用位置及运行说明2.1、使用位置2.2、如何运行 三、JavaScript基础语法3.1、变量3.2、运算符3.3、控制流程3.3.1、分支结构3.3.2、循…