前嗅ForeSpider教程:数据建表

今天,小编为大家带来的教程是:如何在前嗅ForeSpider中,进行数据建表操作及各注意事项。主要内容包括:快速建表,自由建表,字段参数,数据表的创建,关联与删除,以及表单变更后的配置修改。

一,如何快速建表
若在数据抽取链接下,没有相应表单可供选择,可点击“创建表单”按钮,快速创建表单。可添加表单名称、字段名称,选择字段类型、表单模板。

1.字段类型
①主键字段
②名称
③标题
④数字(-20亿~20亿)
⑤长整型数字
⑥时间值
⑦地址
⑧小文本(小于64k)
⑨大型文本
(>>字段参数)

2.表单模板
在表单模板中选择已经建好的表单,可以在表单中添加、删除、修改字段。

快速创建表单:

clipboard.png

二,如何自由建表

1.概念解释
表单:规定了数据表都有哪些“列”,也就是都有哪些字段。数据存储结构类似的采集任务,可以共用同一个表单。一个表单可以创建多个数据表。
字段:在数据库中,表单的“列”称为“字段”,每个字段存储某一项的信息。

2.创建表单和字段
在表单列表点击“添加”按钮,创建一个新的表单。点击表单配置右侧的“添加”按钮,即弹出添加字段的窗口。

添加字段:

clipboard.png

字段具体参数的设置方法,详见下节(>>字段参数)

3.字段修改
在数据建表的表单配置右侧,可以对表单进行一系列操作。

添加字段:

clipboard.png

修改字段

clipboard.png

字段排名上移

clipboard.png

字段排名下移

clipboard.png

删除字段

clipboard.png

保存数据表

clipboard.png

三,字段参数

1.字段名称
字段名称由英文字符、数字、下划线、$构成,且不能以数字开头。
①不支持中文。
②区分大小写。
③不能是SQL语句关键字:如select、time等。

2.字段属性
大部分情况无需选择字段属性。
一般数据表都需要一个主键字段,作为唯一ID记录。主键字段需要勾选“主键字段”,勾选后自动会选上“索引字段”和“键值唯一”。

clipboard.png

3.采集内容
指该字段需要从网页上获取的数据内容。
当字段需要存储页面的url地址、采集时间、网页title等内容时,通过选择对应的采集,就可以自动为该字段赋值。(>>自动取值字段)
当某字段存储的是网页上的内容数据时,比如文章的标题、联系人名称、电话号码等,通过选择“选区内全部文本”,再在内置浏览器上定位,就可以自动获取网页的数据。

clipboard.png

示例:
(1)选区内全部文本:
<ul><li>百度</li></ul>,采集全部标签下的内容。
(2)选区最外层节点文本:
<ul><li>百度</li></ul>,只选取<ul>节点,不采集<li>和内容。
(3)选区最外两层节点文本:
<ul><li>百度</li></ul>,只采集<ul><li>的内容,不采集的内容。
(4)网页内文字文本:采集整个页面中所有可见的文字文本。

4.数据类型
数据类型如下表所示:

clipboard.png

5.字符串长度
只有变量类型是字符串时需要填写长度。字符串长度有两种情况:
(1)短文本
文本长度不大时,可以填写字符串长度,字符串可填写的最大长度为255。字段长度尽量不要设置的偏小,防止有超出长度的数据无法存入数据库。
(2)大文本
文本较大时,无需填写字符串长度。
①长文本:适用于新闻、正文等小于64K的文本。

设置长文本

clipboard.png

也可以通过选择变长字段的方式,在数据库中两种方式效果相同。

设置变长字段

clipboard.png

②超长文本:适用于论文等长文。

设置超长文本

clipboard.png

6.字段描述
在“字段描述”文本框里,用户可以为字段填写描述性的注释内容。

四,数据表的创建、关联与删除

表单只是定义了都有哪些字段,想要实现数据的存储,需要对表单创建对应的数据表。(软件默认连接了ForeLib数据库,可更改。)

关联数据表

clipboard.png

  1. 创建数据表

选择表单,在表单的左下方点击“创建”,输入数据表名称(仅限英文),完成数据表的创建。

  1. 关联数据表

勾选前面的多选框,即已关联数据表。取消勾选,解除关联。
采集数据时,数据存入勾选的数据表。

  1. 删除数据表

可以删除已创建的数据表。

  1. 反建表单

反建表单会根据数据库中,已存在的数据表创建爬虫表单。

五,表单变更后的配置修改

表单建好后,如果已经配置了模板中的字段,甚至已经建立了数据表,则修改表单,需要进行下列操作。

1.影响字段节点取值的情况
如果字段名称、字段数量和采集内容更改,需要到对应任务的字段节点,修改字段和采集内容。修改方式有两种:
(1)重置表单
重新选择表单名称后,这里的表单将被重置,所有的字段取值配置(包括字段处理脚本)也被清空,需要逐一重新配置字段取值。
(2)添加删除字段
当表单做了修改字段名称、添加删除字段的操作后,可以不必重置表单,在模板列表对应的数据抽取节点,通过右键添加删除字段,将两边的字段名称和数量保持一致即可。
这里的添加删除操作只针对该数据抽取,不会改动表单。

添加数据字段

clipboard.png

①添加字段
在模板列表对应的数据抽取节点,点击右键,选择“添加数据字段”,可以新建字段。
②删除字段
在某字段上点击右键,可以删除该字段。
③修改采集内容
通过字段节点向导中的下拉菜单,修改采集内容与表单中的一致即可。

2.已创建数据表
当数据表已经建好后,修改表单会影响采集,原数据表不能适应新的表单结构。在上述修改字段的基础上,还需要删除原数据表,再重新创建一个新的数据表。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/449334.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

世纪大争论:Linux还是GNU/Linux?

本文由 极客范 - 爱开源的贡献开源社区 翻译自 Chris Hoffman。欢迎加入极客翻译小组&#xff0c;同我们一道翻译与分享。转载请参见文章末尾处的要求。我们在网上已经习惯用“Linux”来称呼Linux操作系统了&#xff0c;然而&#xff0c;偶尔也用“GNU/Linux”来称呼和指代同…

PyTorch Softmax

PyTorch provides 2 kinds of Softmax class. The one is applying softmax along a certain dimension. The other is do softmax on a spatial matrix sized in B, C, H, W. But it seems like some problems existing in Softmax2d. : ( 转载于:https://www.cnblogs.com/hiz…

同时寻找最大数和最小数的最优算法 第二大数

我们知道&#xff0c;在一个容量为n的数据集合中寻找一个最大数&#xff0c;不管用什么样的比较算法&#xff0c;至少要比较n-1次&#xff0c;就算是用竞标赛排序也得比较n-1次&#xff0c;否则你找到的就不能保证是最大的数。那么&#xff0c;在一个容量为n的数据集合中同时寻…

浅谈mpvue项目目录和文件结构

2019独角兽企业重金招聘Python工程师标准>>> 在Visual Studio Code里面打开项目文件夹&#xff0c;我们可以看到类似如下的文件结构&#xff1a; 1、package.json文件 package.json是项目的主配置文件&#xff0c;里面包含了mpvue项目的基本描述信息、项目所依赖的各…

进程间通信---信号

什么是信号&#xff1f; 】 信号处理流程 信号类型 发送信号的函数 参数sig&#xff1a;代表 信号 接收信号的函数 参数 handle 的处理方式有几种&#xff1f; 实例代码 实例逻辑 图中的等待操作使用&#xff1a;pause&#xff08;&#xff09;函数 代码 在这里插入代码片…

大白话解说,半分钟就懂 --- 分布式与集群是什么 ? 区别是什么?

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 PS&#xff1a;这篇文章算是笔记&#xff0c;仅部分文字是原创&#xff0c;相当内容只是收集、整理、提炼、总结别人写的。 没有标为原创…

用Linux命令行修图——缩放、编辑、转换格式——一切皆有可能

本文由 极客范 - 八卦爱好者 翻译自 How-To Geek。欢迎加入极客翻译小组&#xff0c;同我们一道翻译与分享。转载请参见文章末尾处的要求。ImageMagick是一系列的用于修改、加工图像的命令行工具。ImageMagick能够快速地使用命令行对图片进行操作&#xff0c;对大量的图片进行…

dubbo-admin管理平台搭建

一、前言 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 dubbo的使用&#xff0c;其实只需要有注册中心&#xff0c;消费者&#xff0c;提供者这三个就可以使用了&#xff0c;但是并不能…

不朽传奇-云计算技术背后的那些天才程序员:Qemu的作者法布里斯贝拉

作者&#xff1a;Liu Guo Hui&#xff0c;OpenStack中国社区&#xff0c;转载请注明出处 众所周知&#xff0c;虚拟化技术是构建云基础架构不可或缺的关键技术之一&#xff0c;而在众多虚拟化技术实现当中&#xff0c;KVM&#xff08;Kernel Virtual Machine&#xff09;因为L…

Shiro安全框架入门篇(登录验证实例详解与源码)

一、Shiro框架简单介绍 前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 Apache Shiro是Java的一个安全框架&#xff0c;旨在简化身份验证和授权。Shiro在JavaSE和JavaEE项目中都可以使用…

边缘控制平面Ambassador全解读

Ambassador是由Datawire开源的一个API网关项目&#xff0c;主要在Kubernetes的容器编排框架中使用。Ambassador本质上是一个通过配置边缘/API来管理Envoy数据面板的控制面板。而Envoy则是一个基于第7层协议的网络代理和通信总线&#xff0c;它是一个由Lyft开源的云原生服务&…

专访迅雷首席工程师:迅雷的下一代互联网底层技术构想

摘要&#xff1a;互联网合纵连横频频上演&#xff0c;迅雷与小米的联姻也成为了热点&#xff0c;有许多人为迅雷的上市和迅雷的未来担忧&#xff0c;这家像工程师一样的公司&#xff0c;命运会怎样&#xff0c;他们未来会如何走下去&#xff1f;对此CSDN专访了迅雷首席工程师刘…

Maven入门(含实例教程)

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 Maven这个个项目管理和构建自动化工具&#xff0c;越来越多的开发人员使用它来管理项目中的jar包。接下来小宝鸽&#xff0c;将从下面几个…

身体出现危险时会发出信号 这太重要了 一定收藏 !(组图)

太重要了&#xff01;真的太重要了&#xff01; 心脏有问题时———左边手臂会酸、麻、痛。 肝脏有问题时———小腿晚上睡觉时容易抽筋。 肾脏出现问题时———声音就会出不来&#xff0c;就会沙哑。 脾胃出现问题时———偏头痛。 任何试图更改生物钟的行为&#xff0c;都将给…

数据结构与算法-概念

计算机从解决数值计算问题到解决生活中的问题 现实生活中的问题涉及不同个体间的复杂联系 需要在计算机程序中描述生活中个体间的联系数据结构主要研究非数值计算程序问题中的操作对象以及它们之间的关系而不是研究复杂的算法 数据结构 基本概念 数据&#xff1a;程序的操作对象…

腾讯联手联通推出车联网“网卡”,打“内容”+“流量”的组合拳

车载生态已经成为了一个兵家必争之地了&#xff0c;于商业前景而言&#xff0c;这是一个BAT都无法忽视的掘金胜地。 从市场数据来看&#xff0c;全球车联网市场年复合增长率达到25%&#xff0c;根据汽车之家大数据显示&#xff1a;自2014年以来&#xff0c;车联网上市新车型渗…

阿里云服务器 CentOS 7上-- Docker 安装 网关(API-Getway)--KONG

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 全程操作按官方文档来就可以了。 1.将 Kong 连接到 Cassandra 或 PostgreSQL 容器 Kong支持 2 种数据库&#xff1a;Cassandra 或 Post…

每个程序员都应该了解的内存知识

英文原文&#xff1a;lwn.net&#xff0c;翻译&#xff1a;开源中国 [编辑的话: Ulrich Drepper最近问我们&#xff0c;是不是有兴趣发表一篇他写的内存方面的长文。我们不用看太多就已经知道&#xff0c;LWN的读者们会喜欢这篇文章的。内存的使用常常是软件性能的决定性因子&…

idea debugger console 不见了--还原 console 图标

1 找了好久&#xff0c;也找不到&#xff0c;调试的时候挺麻烦的。 2 最后发现 有个一个重置&#xff0c;视图的按钮。点击一下就恢复 。 如下图。转自&#xff1a;https://blog.csdn.net/changdejie/article/details/64127026

实验五:任意输入10个int类型数据,排序输出,再找出素数

import java.util.Scanner; public class Pxsushu {public static void main(String[] args) {// TODO Auto-generated method stubScanner s new Scanner(System.in);int temp;//对数组事先声明并创建10个空间int[] a new int[10];//把输入的数存储为数组for (int i 0; i &…