前嗅ForeSpider教程:创建模板

今天,小编为大家带来的教程是:如何在前嗅ForeSpider中创建模板。主要内容有:模板的概念,模板的配置方式,模板的高级选项,具体内容如下:

一,模板的概念

模板列表的层级相当于网页跳转的层级。模板一类似于网站首页,每个模板代表了同一层级的页面,通过适当的配置,可以采集全站数据。
正如网站是通过链接之间的跳转,来实现网站各层级页面的连接,ForeSpider也是通过模板中的链接抽取,来实现模板之间的关联。通过抽取网页中的全部链接,再进行精准过滤,就可以既全面又精确的获取所需的全部数据。
正如网站通过正文/数据页展示数据,ForeSpider也是通过模板中的数据抽取,来获取所需数据。

二,模板的配置方式

1.模板的创建
模板的创建,有如下三种情况:
①新建任务后:创建新的任务之后,选择页面需要抽取的内容,点击完成后,软件自动创建对应抽取内容的模板。
②自动创建后续模板:点击配置向导上方的“下一步”,会自动创建模板。
③手动创建模板:点击模板列表上方的添加按钮,创建模板。

2.抽取所需内容
根据内置浏览器显示的页面内容,选择本页面需要抽取的内容。
选择页面抽取内容

clipboard.png

①抽取链接:需要抽取页面上的链接时,选择抽取链接以及具体的链接类型,会建立对应的链接抽取。(方式一:智能过滤/方式二:定位过滤/方式三:地址/标题过滤)
②抽取数据:需要抽取页面上的数据时,选择抽取数据,会建立对应的数据抽取。(>>如何选择表单)
例如:
需要采集新闻的正文数据,当前页面是新闻首页,汇集了新闻的链接,正文数据是通过点击新闻链接进入的,所以本页面需要抽取新闻链接。
软件预置了一些常见的链接页面场景,此时勾选链接列表,软件会自动建立一个链接抽取。

3.如何填写示例地址
(1)模板一的示例地址,自动默认为该任务的采集地址。
(2)其他模板的示例地址,自动默认为上一级模板抽取到的某个链接地址。
(3)如果默认的示例地址不符合需求,可以手动修改示例地址,方法如下:
①采集入口地址(模板一)的选择
一般选择目标网站的入口地址,比如首页。
②示例地址的选择
大多数情况下,采集地址只填写一个url地址。如果链接的页面结构和层级结构是一致的,能够套用同一套采集模板进行采集,可填写多个采集地址,中间用回车换行分隔。如果不一致,需要创建新的采集任务。
例1:采集整个淘宝网全部商品的信息,淘宝网首页就是入口地址。
例2:只采集“女装”类别的商品信息,“女装”首页就是入口地址。
例3:只采集某商品的评论信息,该商品的链接地址就是入口地址。

三,模板的高级选项

1、字符编码

默认自动识别。如果该页面未能自动识别发生乱码,需要自行选择字符编码。可以选择GBK或UTF-8。

2、 文档类型

默认自动识别。可以选择采集xml文档。

3、网页类型

适用于一个模板配置大批量网站的情况(可导入上万个采集地址),选择类型后,可以自动过滤不属于该类型的网页,从而达到快速配置的目的。
网页类型包括:全部类型、导航页、列表页、(文本)内容页、详情页、附件、未知页。

4、主题过滤

自动识别网页的语义,并采集属于某些类别的数据,过滤掉不属于某些类别的数据。(针对自动分类器使用,如有需求请联系我们定制。)

5.、未匹配处理模板

适用于一个模板配置大批量网站的情况,当有页面不符合匹配的类型被过滤掉后,可以在此选择一个针对未匹配页面的处理模板,进入其他处理流程。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/388232.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

django 性能优化_优化Django管理员

django 性能优化Managing data from the Django administration interface should be fast and easy, especially when we have a lot of data to manage.从Django管理界面管理数据应该快速简便,尤其是当我们要管理大量数据时。 To improve that process and to ma…

3D场景中选取场景中的物体。

杨航最近在学Unity3D在一些经典的游戏中,需要玩家在一个3D场景中选取场景中的物体。例如《仙剑奇侠传》,选择要攻击的敌人时、为我方角色增加血量、为我方角色添加状态,通常我们使用鼠标来选…

canva怎么使用_使用Canva进行数据可视化项目的4个主要好处

canva怎么使用(Notes: All opinions are my own. I am not affiliated with Canva in any way)(注意:所有观点均为我自己。我与Canva毫无关系) Canva is a very popular design platform that I thought I would never use to create the deliverable for a Data V…

如何利用Shader来渲染游戏中的3D角色

杨航最近在学Unity3D 本文主要介绍一下如何利用Shader来渲染游戏中的3D角色,以及如何利用Unity提供的Surface Shader来书写自定义Shader。 一、从Shader开始 1、通过Assets->Create->Shader来创建一个默认的Shader,并取名…

Css单位

尺寸 颜色 转载于:https://www.cnblogs.com/jsunny/p/9866679.html

ai驱动数据安全治理_JupyterLab中的AI驱动的代码完成

ai驱动数据安全治理As a data scientist, you almost surely use a form of Jupyter Notebooks. Hopefully, you have moved over to the goodness of JupyterLab with its integrated sidebar, tabs, and more. When it first launched in 2018, JupyterLab was great but fel…

【Android】Retrofit 2.0 的使用

一、概述 Retrofit是Square公司开发的一个类型安全的Java和Android 的REST客户端库。来自官网的介绍: A type-safe HTTP client for Android and JavaRest API是一种软件设计风格,服务器作为资源存放地。客户端去请求GET,PUT, POST,DELETE资源。并且是无…

Mysql常用命令(二)

对数据库的操作 增 create database db1 charset utf8; 查 # 查看当前创建的数据库 show create database db1; # 查看所有的数据库 show databases; 改 alter database db1 charset gbk; 删 drop database db1; 对表的操作 use db1; #切换文件夹select database(); #查看当前所…

python中定义数据结构_Python中的数据结构—简介

python中定义数据结构You have multiples algorithms, the steps of which require fetching the smallest value in a collection at any given point of time. Values are assigned to variables but are constantly modified, making it impossible for you to remember all…

Unity3D 场景与C# Control进行结合

杨航最近在自学Unity3D,打算使用这个时髦、流行、强大的游戏引擎开发一个三维业务展示系统,不过发现游戏的UI和业务系统的UI还是有一定的差别,很多的用户还是比较习惯WinForm或者WPF中的UI形式,于是在网上搜了一下WinForm和Unity3…

数据质量提升_合作提高数据质量

数据质量提升Author Vlad Rișcuția is joined for this article by co-authors Wayne Yim and Ayyappan Balasubramanian.作者 Vlad Rișcuția 和合著者 Wayne Yim 和 Ayyappan Balasubramanian 共同撰写了这篇文章 。 为什么要数据质量? (Why data quality?) …

unity3d 人员控制代码

普通浏览复制代码private var walkSpeed : float 1.0;private var gravity 100.0;private var moveDirection : Vector3 Vector3.zero;private var charController : CharacterController;function Start(){charController GetComponent(CharacterController);animation.w…

删除wallet里面登机牌_登机牌丢失问题

删除wallet里面登机牌On a sold-out flight, 100 people line up to board the plane. The first passenger in the line has lost his boarding pass but was allowed in regardless. He takes a random seat. Each subsequent passenger takes their assigned seat if availa…

字符串操作截取后面的字符串_对字符串的5个必知的熊猫操作

字符串操作截取后面的字符串We have to represent every bit of data in numerical values to be processed and analyzed by machine learning and deep learning models. However, strings do not usually come in a nice and clean format and require preprocessing to con…

最新 Unity3D鼠标滑轮控制物体放大缩小 [

var s 1.0;function Update () {var cube GameObject.Find("Cube");if(Input.GetAxis("Mouse ScrollWheel")){s Input.GetAxis("Mouse ScrollWheel");cube.transform.localScaleVector3(1*s,1*s,1*s);}}

sublime-text3 安装 emmet 插件

下载sublime,http://www.sublimetext.com/ 安装package control :https://packagecontrol.io/ins... 这个地址需要翻墙,访问不了的可以看下图 import urllib.request,os,hashlib; h 6f4c264a24d933ce70df5dedcf1dcaee ebe013ee18cced0ef93d…

unity3d]鼠标点击地面人物自动走动(也包含按键wasdspace控制)

目录(?)[-] 一效果图二大概步骤 创建一个plane设置层为Terrain因为后面要判断是否点击的是这个层准备好人物模型并且将三个脚本拖放到人物上并且将动画文件也拖放好记得看前面提醒哦 ThirdPersonCamera相当于smoothflowThirdPersonController修改版mouseMoveContr鼠标点击人物…

Web 开发基础

一、 Web 开发简介 最早的软件都是运行在大型机上的,软件使用者登陆到大型机上去运行软件。后来随着 PC 机的兴起,软件开始主要运行在桌面上,而数据库这样的软件运行在服务器端,这种 Client/Server 模式简称 CS 架构。随着互联网的…

power bi函数_在Power BI中的行上使用聚合函数

power bi函数Aggregate functions are one of the main building blocks in Power BI. Being used explicitly in measures, or implicitly defined by Power BI, there is no single Power BI report which doesn’t use some sort of aggregate functions.聚合功能是Power BI…

广义估计方程估计方法_广义估计方程简介

广义估计方程估计方法A key assumption underpinning generalized linear models (which linear regression is a type of) is the independence of observations. In longitudinal data this will simply not hold. Observations within an individual (between time points) …