文章目录
- 一、前述
- 1.1、采集场景
- 1.2、采集字段
- 1.3、采集结果
- 1.4、采集工具
 
- 二、采集步骤
- 2.1、登录网站
- 2.1.1、登录入口
- 2.1.2、京东账号登录
- 2.1.3、登录完成
 
- 2.2、自动识别
- 2.3、选取爬取的内容
- 2.4、处理数据
- 2.4.1、纵向字段布局
- 2.4.2、更多字段操作
- 2.4.3、格式化数据
- 2.4.4、添加步骤
- 2.4.5、正则替换
 
- 2.5、采集数据
- 2.5.1、本地采集
- 2.5.2、采集过程
- 2.5.3、采集完成
- 2.5.4、导出数据
 
 
- 三、付费
- 3.1、试用
- 3.2、定时采集
- 3.3、版本
 
- 四、最后
一、前述
1.1、采集场景
打开京东商品详情页(实例网址:https://item.jd.com/100008134693.html ),使用八爪鱼采集点击不同的参数后得到的数据。

1.2、采集字段
标题、商品编号SKU、促销、优惠券

1.3、采集结果
采集结果可导出为Excel、CSV、HTML、数据库等多种格式。

导出为Excel示例:

1.4、采集工具
使用的是八爪鱼这个工具来爬取,去【下载】,本文操作使用的版本是:v8.6.7.112311

二、采集步骤
2.1、登录网站
在首页输入框中,输入网址 https://item.jd.com/100008134693.html ,此时会跳转到京东登录页

2.1.1、登录入口
点击【登录网站】,未登录时盾牌图标是灰色状态

2.1.2、京东账号登录

2.1.3、登录完成
登录完成后,会进入到商品详情页,点击右下角的【完成登录】,之后会关闭登录网站的弹窗,回到主界面

登录网站右侧的盾牌会从灰色变成绿色

2.2、自动识别
打开网页后,如果开始【自动识别】,请等待自动识别完成。八爪鱼支持自动识别网页上的列表、滚动和翻页,识别成功后直接启动采集即可获取数据

2.3、选取爬取的内容

① 选中页面上优惠券右侧的文本
② 在黄色操作提示框中,选择【文本内容】
③ 商品编号、标题、促销类似操作
2.4、处理数据
导出的excel中有发现数据带有很多空格和换行,所以做下处理表格会显示的更好看些
2.4.1、纵向字段布局
默认是横向字段布局

点击工具栏按钮切换布局

2.4.2、更多字段操作

2.4.3、格式化数据

2.4.4、添加步骤
添加步骤-正则替换

2.4.5、正则替换
正则表达式输入框里的\s+的意思就是匹配采集到的数据中的所有空格

替换为下面的输入框为空,就是把很多换行之类的空格全部都置空
2.5、采集数据
2.5.1、本地采集
单击【采集】并点击本地采集下的【普通模式】

2.5.2、采集过程
之后就开始启动后八爪鱼开始自动采集数据

2.5.3、采集完成

2.5.4、导出数据

三、付费
3.1、试用
付费的项目可以申请使用,但是免费使用时间只有3天,而且还需要申请

3.2、定时采集
本来想设置下每天定时自动采集自动下载excel,结果发现需要付费

3.3、版本
个人版每个月¥79,个人觉得有点贵了

四、最后
本人每篇文章都是一字一句码出来,希望对大家有所帮助,多提提意见。顺手来个三连击,点赞👍收藏💖关注✨,一起加油☕