java爬取网页数据_如何使用爬虫工具采集数据

网络爬虫是一种按照一定规则,自动抓取万维网数据的脚本。按照一定规则,指的是爬虫程序需要解析网页的dom结构,针对dom结构爬取自己感兴趣的数据。

8ada53ef3c94f9e6dc5fed466ddf91ae.png

(图1)

这就是一个网页源码的dom结构,我们需要一级一级指定抓取的标签,如下图:

22a8ae9e47256d16408bd7bc98e506cd.png

(图2)

图2是java程序使用webmagic框架开发的爬虫程序,这段代码就是抓取对应的标签,和图1是相对应的,运行后得到结果如下:

68f4e29294630203fa5df5f80b9a8e79.png

当然,以上是专业程序员干的事情,但是有助于我们理解爬虫工具工作的原理。非专业人员可以通过爬虫工具来自己爬取数据。

1.首先输入你要爬取的网站的网址,点击“开始采集”。

3a301855c0eb4efc6e20390a6ce794ba.png

2.工具自动识别到当前页面是多页数据,会默认翻页采集,我们只要点击“生成采集设置”即可。

347b5d9543174aa43a39a9c8c417e072.png

3.点击要采集的详细链接,这里我们要采集这个网站上所有的化工产品的信息,所以点击中文名称这一列某个链接,再点击右侧“点击该链接”,如下图

70200d1c7f17f377c5e46de0ab5a57cd.png

4.爬虫工具进入到详细链接的页面,这个页面的数据也就是我们要爬取的,点击“生成采集设置”,会生成爬虫工具最后的爬取流程,如下图所示,爬虫工具就会按照这个流程给我们采集数据,直到数据采集完成。

b3f693a914bf8092d23d7202d341feaf.png
f1676c7df005dd3b4df8e94fe41177d4.png

5.点击“采集”按钮,爬虫工具正式开始运行,爬虫工具工作时如下:

59961eb9b68b9bc52e3e8551afc6ff6f.png

列表的这些数据都是爬虫采集到的,我们还可以对这些采集的数据做处理,可以选择导成Excel文档,或者直接导入数据库,这些是后续分析数据,对数据做进一步处理的必要条件。有了这些基础数据,可以对数据做分析,得出一些商业依据,可以作为商业决策时的支撑。比如以前沃尔玛就通过他们的大数据,发现买尿不湿的奶爸喜欢一起买啤酒,于是就把尿不湿和啤酒摆在一起,啤酒的销量大增,这个就是大数据的价值。

这次讲的爬虫工具使用,只是比较基础的应用,希望对大家有帮助。科技漫步者带你漫步科技,后续会不断更新相关知识,欢迎关注。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/311562.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

二叉树-树转二叉树 使用队列,编写transfrom函数,将普通树转换成对应的二叉树。

树转二叉树 使用队列,编写transfrom函数,将普通树转换成对应的二叉树。二叉树的相关定义如下: typedef int DataType; typedef struct Node{DataType data;struct Node* left;struct Node* right; }BiTNode, *BiTree; 普通树节点的定义如下…

数据结构-图-邻接矩阵-试在邻接矩阵存储结构上实现图的基本操作 matrix_insert_vertex 和matrix_insert_arc-icoding

邻接矩阵 试在邻接矩阵存储结构上实现图的基本操作 matrix_insert_vertex 和matrix_insert_arc,相关定义如下: typedef int VertexType;typedef enum{DG, UDG }GraphType;typedef struct{VertexType vertex[MAX_VERTEX_NUM]; //顶点向量int arcs[MAX_V…

gRPC in ASP.NET Core 3.x - gRPC 简介(2)

前一篇:gRPC in ASP.NET Core 3.x - gRPC 简介(1)身份认证这里指的不是用户的身份认证,而是指多个server和client之间,它们如何识别出来谁是谁,并且能安全的进行消息传输。在身份认证这方面,gRP…

python实现最小二乘法的线性回归_最小二乘法求线性回归的python实现

原文:版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/qq_38003892/article/details/844951721 核心思想通过最小化方差,使得拟…

邻接表1 - 试在邻接表存储结构上实现图的基本操作 insert_vertex 和 insert_arc-数据结构-图-icoding

邻接表1 试在邻接表存储结构上实现图的基本操作 insert_vertex 和 insert_arc,相关定义如下: typedef int VertexType;typedef enum{DG, UDG }GraphType;typedef struct ArcNode {int adjvex;InfoPtr *info;struct ArcNode *nextarc;}ArcNode;typedef …

.NET Core开发实战(第8课:配置框架:让服务无缝适应各种环境)--学习笔记

08 | 配置框架:让服务无缝适应各种环境配置是应用程序发布到各种环境的必备能力,这一节开始详细讲解 ASP.NET Core 的配置框架配置框架的核心包有两个,一个抽象包,一个实现包Microsoft.Extensions.Configuration.AbstractionsMicr…

python循环遍历所有目录_python 遍历文件夹

一、os.walk()os.walk(top, topdownTrue, οnerrοrNone, followlinksFalse)可以得到一个三元tupple(dirpath, dirnames, filenames),第一个为起始路径,第二个为起始路径下的文件夹,第三个是起始路径下的文件。dirpath 是一个string,代表目录…

邻接表2 -试在邻接表存储结构上实现图的基本操作 del_vertex-数据结构-图-icoding

邻接表2 试在邻接表存储结构上实现图的基本操作 del_vertex,相关定义如下: typedef int VertexType;typedef enum{DG, UDG }GraphType;typedef struct ArcNode{int adjvex;InfoPtr *info;struct ArcNode *nextarc; }ArcNode;typedef struct VNode{Vert…

python提取文件名的5-6位_python提取文件名

首先声明本人初涉python,由于是自学,而且课余时间比较琐碎,所以打算分主次两条线。主的一条线是看python教程,但是这样实在枯燥,所以又有了次的一条线,就是写一些小程序练练手,只想总结下所得&a…

【译】探索更轻量的Electron替代品来托管Blazor桌面应用程序

本文翻译自 ASP.NET 项目组的 Steve Sanderson 的博客,发表于 2019 年 11 月 1 日。Steve Sanderson 是 Blazor 最早的创造者。这篇文章发布后还有一篇后续,是介绍一个在本文提到的跨平台 webview 概念的落地项目 WebWindow ,我也会接着翻译过…

MATLAB-矩阵基本语法知识

数组创建 1.要创建每行包含四个元素的数组,请使用逗号 (,) 或空格分隔各元素。 这种数组为行向量。 要创建包含多行的矩阵,请使用分号分隔各行。 a [1 2 3; 4 5 6; 7 8 10] 2.创建矩阵的另一种方法是使用 ones、zeros 或 rand 等函数。例如&#x…

mysql 剔除不可见字符_不可见字符,Excel里最隐蔽的坑

小伙伴们好啊,我是流浪铁匠,今天为大家介绍的是excel数据整理时一类最常见的坑——不可见字符。从unichar函数对应的uincode字符集结果来说,excel大约有111万个字符,其中有不少字符的性质千奇百怪,由于unichar/unicode…

同为Chromium浏览器,Edge却被“特别关照”

谷歌会在 Microsoft Edge 用户访问 Chrome Web Store(Chrome 网上应用商店) 时发去一条通知提醒,建议用户切换到 Google Chrome 以安全地使用扩展程序,通知还提供了下载 Google Chrome 的链接。不过有趣的是,其他 Chro…

数据结构-查找-总结归纳知识点

//第八章 查找 //基于线性表的查找 // 1.顺序查找法 //思想:所给的关键字和表中元素的关键字逐个比较 分为:设置监视哨和不设监视哨 监视哨:r[0]防止越界 //2.折半查找法 要求:顺序储存结构(不能链表),按照关键字大小有序排列(正序和逆序) 思想:利用mid(highlow)/2(整数). …

噪声与振动控制工程手册_声学分享客噪声与振动控制篇大型隔振工程案例介绍...

第一期《声学分享客--噪声与振动控制篇》将于今日上午10:00~11:00,在线直播,欢迎各位上线交流。主讲人:苏宏兵报告内容:大型隔振工程案例介绍报告人介绍:苏宏兵,工学硕士&#xff0c…