python实现某品牌数据采集

news/2025/10/29 13:08:42/文章来源:https://blog.csdn.net/m0_46467017/article/details/131984551

某品牌数据采集

采集需求

地址：http://www.winshangdata.com/brandList

需求：用scrapy框架采集本站数据，至少抓取5个分类，数据量要求5000以上

采集字段：标题、创建时间、开店方式、合作期限、面积要求

网页分析

进入网站后页面如下

在这里插入图片描述

在这里插入图片描述

打开f12切换到网络这一栏，刷新网页或者点击下一页抓取请求

在这里插入图片描述

分析返回的json数据发现，只能获取到我们需要的标题、面积要求

在这里插入图片描述

在这里插入图片描述

所以我们需要进入网页详情页面进行分析，进入详情页面后发现我们剩下所需的参数都是在网页的li标签中，所以我们可以通过xpath等方式获取，而网页跳转的brandId参数在我们之前获取的json包中可以获取

在这里插入图片描述

由于题目要求需要抓取5个分类，接下来再分析业务类别是怎么实现的

点击不同类别的标签分析xhr请求发现，分类主要通过ytlb1参数进行实现，而翻页则通过pageNum进行实现，pageSize参数可以选择一页可以爬取多少元素

在这里插入图片描述

到此我们网页基本分析完毕，爬虫的大致流程为

先爬取http://www.winshangdata.com/wsapi/brand/list3_4，获取返回包中的brandId,brandName两个参数
将获取的brandId参数，重新构造url：http://www.winshangdata.com/brandDetail?brandId=，然后通过构造Xpath语句获取li标签中的span标签中的我们需要的数据

代码实现

全部代码这里就不展示了，这里只展示核心代码，有需要的可以私信找我。
在这里插入图片描述

结果展示

在这里插入图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/11650.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

大模型部署框架 FastLLM 实现细节解析

大模型部署框架 FastLLM 实现细节解析

0x0. 前言接着大模型部署框架 FastLLM 简要解析这篇文章首先梳理了一下FastLLM的调用链和关键的数据结构，然后解析了 FastLLM 的一些实现细节和CPU/GPU后端实现采用的优化技巧。 0x1. 调用链和数据结构解析以chatglm-6b的支持为例，函数入口在 htt…

阅读更多...

NLP实验案例100个（1-5）

NLP实验案例100个（1-5）

实验一 array数组（01） 一、实验目的及要求 1.安装numpy环境，掌握基本的数组知识以及操作。二、实验设备（环境）及要求开发环境：jupyter notebook 开发语言以及相关的库：python开发语言、nu…

阅读更多...

微信小程序开发，小程序类目符合，线上版本无权限申请wx.getLocation接口

微信小程序开发，小程序类目符合，线上版本无权限申请wx.getLocation接口

我开发的小程序类目符合wx.getLocation接口的申请标准但是却还是显示无权限申请后来研究好久才发现，小程序需要在发布线上版本时提交用户隐私保护指引如未设置也可以在设置-服务内容声明-用户隐私保护指引-声明处理用户信息项并补充填写后提交用户隐私协议审核…

阅读更多...

Oracle 笔记

Oracle 笔记

Oracle 笔记这里主要是记录学习 Oracle 常用操作命令等，方便今后查阅！！！ 一、常用命令登录Oracle su - oracleexport ORACLE_SIDXE export ORAENV_ASKNO . /opt/oracle/product/21c/dbhomeXE/bin/oraenvsqlplus system/1qaz…

阅读更多...

使用docker-compose搭建lnmpr环境

使用docker-compose搭建lnmpr环境

源码gitee compose 使用的三个步骤： • 使用 Dockerfile 定义应用程序的环境。 • 使用 docker-compose.yml 定义构成应用程序的服务，这样它们可以在隔离环境中一起运行。 • 最后，执行 docker-compose up -d 命令来启动并运行整个应用程序…

阅读更多...

D2L学习记录-10-词嵌入word2vec

D2L学习记录-10-词嵌入word2vec

NLP-1-词嵌入(word2vec) 参考: 《动手学深度学习 Pytorch 第1版》第10章自然语言处理第1、2、3 和 4节 (词嵌入) 词嵌入 (word2vec)： 词向量：自然语言中，词是表义的基本单元。词向量是用来表示词的向量。词嵌入 (word embedding)&#x…

阅读更多...

常见的正则表达式

常见的正则表达式

目录问题现象： 问题分析： 解决方法： 拓展： 1、手机号或座机： 2、邮箱： 3、中文： 4、数字： 5、英文： 6、组合： 问题现象： 今天在项目中&…

阅读更多...

Bootstrap-学习文档

Bootstrap-学习文档

Bootstrap 简介什么是 Bootstrap？ Bootstrap 是一个用于快速开发 Web 应用程序和网站的前端框架。 Bootstrap是前端开发中比较受欢迎的框架，简洁且灵活。它基于HTML、CSS和JavaScript，HTML定义页面元素，CSS定义页面布局&#x…

阅读更多...

数据库转换分析软件：EasyMorph 5.X Crack

数据库转换分析软件：EasyMorph 5.X Crack

EasyMorph 为您和您的团队提供数据超能力。无需编码技能。不要问 IT 人员。自己做。内置动作即使您不是 IT 专家，也可以从任何地方检索数据并自动执行复杂的数据转换无需 SQL 或编程知识 — 设计简单且 100% 可视化减少对企业IT部门的依赖，减少繁琐…

阅读更多...

清风学习笔记—层次分析法—matlab对判断矩阵的一致性检验

清风学习笔记—层次分析法—matlab对判断矩阵的一致性检验

在判断矩阵是否为正互反矩阵这块，我写了两种代码，改进前很麻烦且有错误，改进后简洁多了，改进前的代码还有错误，忽略了对角线的值必须都是1，只考虑了除开对角线的元素相乘为1。 %% 改进前代码 A[3 2 4;1/2 …

阅读更多...

Git的远程操作与多人协作

Git的远程操作与多人协作

"爱在地图上剥落，我离孤单几公里~" 我们目前所说、所学的内容（工作区、暂存区、版本库）都只是存在于本地上，也就是说你的一台机器上只有这么一个你维护的版本库。可是Git是一个分布式版本控制系统，这又是什…

阅读更多...

k8s kubelet coredns ubuntu修改dns配置文件读取路径

k8s kubelet coredns ubuntu修改dns配置文件读取路径

kubelet 修改默认使用的dns配置文件 coredns服务默认使用节点上的dns配置，由于在Ubuntu18及以上版本，默认是启用systemd-resolved服务的，且配置nameserver配置文件默认为 /run/systemd/resolve/resolv.conf ， 且kubelet默认的dns…

阅读更多...

YOLO 划分数据集（训练集、验证集、测试集）

YOLO 划分数据集（训练集、验证集、测试集）

目录前言训练集、验证集（8:2）训练集、验证集、测试集（7:2:1） 前言本博客是在我的另一篇博客 VOC 格式与 YOLO 格式的相互转换的基础上进行的，有需要可以参考以下代码亲测可以直接复制运行（以下所有的路…

阅读更多...

利用Redis实现向量相似度搜索：解决文本、图像和音频之间的相似度匹配问题

利用Redis实现向量相似度搜索：解决文本、图像和音频之间的相似度匹配问题

在自然语言处理领域，有一个常见且重要的任务就是文本相似度搜索。文本相似度搜索是指根据用户输入的一段文本，从数据库中找出与之最相似或最相关的一段或多段文本。它可以应用在很多场景中，例如问答系统、推荐系统、搜索引擎等。比如&#…

阅读更多...

数据库CAST()函数，格式（CAST AS decimal）

数据库CAST()函数，格式（CAST AS decimal）

语法： CAST (expression AS data_type) 参数说明： expression：任何有效的SQServer表达式。 AS：用于分隔两个参数，在AS之前的是要处理的数据，在AS之后是要转换的数据类型。 data_type：目标系统…

阅读更多...

【个人笔记】Linux命令之watch命令

【个人笔记】Linux命令之watch命令

1.命令简介 watch 以周期性方式执行给定的命令，并全屏显示执行结果，可以帮助监测一个命令的运行结果。 2.命令格式及参数选项说明命令格式： watch [OPTIONS] COMMAND选项说明： -d, --differences [PERMANENT]高亮显示最近两…

阅读更多...

redis中List＜String＞缓存处理

redis中List＜String＞缓存处理

放入redis List<String> strList ["1","2"]; // 把list转化成String放入缓存中 redisUtil.set(key, JSONObject.toJSONString(strList),300);从redis取出 Object object redisUtil.get(key); List<String> strList1 null; if (Objects.no…

阅读更多...

c语言的数据类型 -- 与GPT对话

c语言的数据类型 -- 与GPT对话

1 c语言的数据类型在C语言中，数据类型用于定义变量的类型和存储数据的方式。C语言支持多种数据类型，包括基本数据类型和派生数据类型。以下是C语言中常见的数据类型：基本数据类型（Primary Data Types）： int: 整数类型，通常表示带符号的整数。char: 字符类型，用于存储…

阅读更多...

Java 生成随机数据

Java 生成随机数据

文章目录 1. Java-faker依赖demo 2. common-random依赖demo 1. Java-faker 依赖 <dependency><groupId>com.github.javafaker</groupId><artifactId>javafaker</artifactId><version>1.0.2</version> </dependency>https://…

阅读更多...

ES6基础知识二：ES6中数组新增了哪些扩展？

ES6基础知识二：ES6中数组新增了哪些扩展？

一、扩展运算符的应用 ES6通过扩展元素符…，好比 rest 参数的逆运算，将一个数组转为用逗号分隔的参数序列 console.log(...[1, 2, 3]) // 1 2 3console.log(1, ...[2, 3, 4], 5) // 1 2 3 4 5[...document.querySelectorAll(div)] // [<div>, &l…

阅读更多...

最新文章