开源 java CMS - FreeCMS2.6 Web页面信息采集

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

java开源论坛系统http://javabbs.javaz.cn

项目地址:http://www.freeteam.cn/

Web页面信息采集

   从FreeCMS 2.1开始支持

通过简单配置即可抓取目标网页信息,支持增量式采集、关键字替换、定时采集,同一采集规则可采集多个页面(静态和动态),可采集多种信息属性,可自动审核且静态化信息页面。

采集规则管理

从左侧管理菜单点击采集规则进入。

01083114_Vxb9.png

添加采集规则

在采集规则列表下方点击"添加"按钮。

01083115_NHqV.png

01083115_BZMP.png

01083115_yIKf.png

01083115_pTNX.png

01083115_RmL7.png

01083115_p2wI.png

01083115_KFZM.png

填写相关属性后点击"保存"按钮即可。

采集规则属性说明

采集规则属性分为基本、设置、采集地址,采集属性,关键词替换。

一般情况下只要在基本选项卡填写相关属性即可完成。如果需要更多高级设置可以使用后面几个选项卡。

下面针对主要属性进行解释说明。

名称:采集规则的名称。

采集到栏目:采集的信息要添加到那个栏目。

页面编码:目标网页的页面编码,默认为UTF-8。

采集地址:目标网页的地址。在基本选项卡中只能设置一个,想要设置多个可以在采集地址选项卡中设置。

采集调度:设置定时执行采集操作,这个设置非常重要,只有设置了采集调度系统才执行采集操作。

内容列表开始结束html:因为系统是通过对目标网页内容进行关键词截取来提取信息属性的,所以设置目标属性的开始结束html就很重要,一定要设置为相对比较唯一的开始结束html,这样系统才能正确的截取到目标属性。此属性主要为了截取目标页面信息列表的html.

内容地址开始结束html:根据上面的属性获取内容列表html后,使用此属性截取各个内容地址。

内容标题开始结束html:根据上面的属性获取内容地址后,系统会抓取此内容地址的网页内容,然后根据此属性截取内容标题。内容相关属性的设置跟此属性类似,下面不再赘述。

状态:启用状态下的采集规则,系统才会执行。

采集图片:将信息内容中的图片下载到本地。

自动审核通过:将采集的信息直接设置为已审核状态。

使用采集信息点击量:默认采集到的信息的点击量为0,设置此属性和内容点击量开始结束html后系统会截取目标信息的点击量,设置为采集后信息的点击量。

最多采集内容数:默认不限制,如果设置了此属性,系统会从采集记录中统计此采集规则已采集了多少条信息,如果超过最多采集内容数,系统将不再采集。

将首幅图片设为标题图片:如果信息内容中有图片,则提取第一张做为标题图片,并设置信息为图片信息。

清除内容中的html标签:将信息内容中的html标签清除,保留纯文本。

当内容为空时是否采集:可设置在内容为空时不采集此信息。

使用采集信息的添加时间:默认采集到的信息的添加时间为当前时间,设置此属性和内容添加时间开始结束html后系统会截取目标信息的添加时间,设置为采集后信息的添加时间。

采集信息添加时间格式:默认格式为yyyy-MM-dd,如果目标页面的添加时间格式不同,需要在这里设置为正确的日期格式。

采集开始时间:默认为当前时间,如果不到采集开始时间,系统是不会采集的。

采集结束时间:默认为永不结束,如果超过采集结束时间,系统是不会采集的。

内容地址补全url:因为有些网页使用的是相对路径或绝对路径,可以设置内容地址的前缀。

图片地址补全url:因为有些网页使用的是相对路径或绝对路径,可以设置图片链接地址的前缀。

内容中A标签链接地址补全url:因为有些网页使用的是相对路径或绝对路径,可以设置内容中A标签链接地址的前缀。

采集地址分为静态和动态地址,静态地址为固定的地址,动态地址一般指可以分页的地址,通过{page}来代表分页变量,可以设置从那一页采集到那一页,如http://www.freetam.cn/list_{page}.html,设置开始页数为1,结束页数为10,系统会自动提取http://www.freetam.cn/list_1.html到http://www.freetam.cn/list_10.html所有页面的数据。

一般情况下我们只采集信息的标题和内容就可以了,系统还提供采集内容描述、点击量、作者、来源、添加时间属性的功能。

通过关键词替换功能,您可以将采集到的信息里面的关键词替换为自己想要的关键词。

 

编辑采集规则

选择需要编辑的采集规则,然后点击"编辑"按钮。

注意:同时只能编辑一个采集规则。

01083115_wych.png

填写相关属性后点击"保存"按钮即可。

采集

选择需要采集的采集规则,然后点击"采集"按钮。

注意:同时只能对一个采集规则进行采集操作。

01083115_SpZn.png

01083115_EHsI.png

删除采集规则

选择需要删除的采集规则,然后点击"删除"按钮。

提示:同时可以删除多个采集规则。

01083115_YTLv.png

01083115_GfXx.png

为了防止误操作,系统会提示用户是否删除,点击"确定"完成删除操作。

查看采集记录

从左侧管理菜单点击采集记录进入。

01083115_NWiG.png在这里可以查看到所有web页面采集记录,您可以删除指定的采集记录,但并不会删除已采集的信息数据,选择需要删除的采集记录,然后点击"删除"按钮。

   提示:同时可以删除多个采集记录。

 

01083116_mwEW.png

01083116_4xWm.png

为了防止误操作,系统会提示用户是否删除,点击"确定"完成删除操作。

转载于:https://my.oschina.net/u/916014/blog/899914

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/282017.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ORACLE关于段的HEADER_BLOCK的一点浅析

在学习段(segment)、区间(extent)时,对段的HEADER_BLOCK有一些疑问,本文记录一下探究的实验过程以及相关总结,,如有不对的地方,敬请指出。以SCOTT.EMP表为例(…

【源码探索】.NET中的List,为什么即有Count属性又有Count()方法

“优秀的程序员的标准之一是&#xff1a;编写更易于扩展的代码”图片&#xff1a;奥森公园的向日葵 拍摄于2022年7月23日01—问题缘起上一篇中&#xff0c;我们知道List<T>的是基于数组实现的可变长度的列表。很多小伙伴发现&#xff0c;List<T>即有Count属性又有C…

使用ASP.NET广告控件的XML语言创建广告链接--ASP.NET

1、AdRotator广告控件的所有属性都是可选的&#xff0c;XML文件中可以包含如下表所示的属性&#xff08;XML文件的广告属性&#xff09;。 属性 说明 ImageUrl 要显示的图像的URL NavigateUrl 单击AdRotator控件时要转到的网页URL AlternateText 图像不可用时现实的问…

vim编辑和命令模式、实践

2019独角兽企业重金招聘Python工程师标准>>> 9月29日任务 5.5 进入编辑模式 5.6 vim命令模式 5.7 vim实践 Vim编辑模式 进入编辑模式 操作 说明 i 在光标所在字符前插入内容 I 在光标所在行行首插入内容 a 在光标所在字符后插入内容 A 在光标所在行行尾插入…

英语自动提取高频词_斑马英语提分营免费体验课

斑马英语电脑版是一款专业可靠的英语学习软件&#xff0c;斑马英语官方版可以帮助孩子学习纯正的英语口语发音&#xff0c;以讲故事的形式让孩子学习单词及口语练习&#xff0c;斑马英语电脑版针对儿童语言特征设计的智能口语测评系统&#xff0c;能够自动识别发音和评分&#…

【C# Personal Handbook】开篇

博客已提更一年多了&#xff0c;这段时间里&#xff0c;发生了很多事情&#xff0c;也让我对C#更加依恋&#xff0c;所以我决定重新更新博客&#xff0c;以自己的实践经验梳理C#的技术脉络&#xff0c;也欢迎大家手下留情&#xff0c;耐心指点&#xff0c;让我们共同进步吧&…

canvas特效代码详解(2)

canvas是一个就基于像素的画图h5元素。 利用canvas做一个如下描述所示的动态图形&#xff1a;当鼠标点下去时开始绘图&#xff0c;在鼠标结束时完成一个矩形&#xff0c;当再一次点击时重复第一次的绘图步骤。 1 <!DOCTYPE html>2 <html>3 <head>4 …

阿里云三维可视化使用初体验

title: 阿里云三维可视化使用初体验tags: 物联网开发BIMcategories:物联网本文主要的目标是使用阿里云的云产品 - 物联网套件三维可视化 开始 准备工作 进入下载页面下载页面&#xff0c;点击“模型编辑器下载”安装模型编辑器下载安装完毕&#xff0c;启动模型编辑器下载&…

hp laser103 属性没有配置项_(常见解决方法)UEditor报错“后端配置项没有正常加载,上传插件不能正常使用”...

&#xff08;常见解决方法&#xff09;UEditor报错“后端配置项没有正常加载&#xff0c;上传插件不能正常使用”_向来萧瑟也无畏-CSDN博客​blog.csdn.net报错信息详见此文的“排错过程&&错误信息”→ueditor无法上传图片_向来萧瑟也无畏-CSDN博客3种解决方法1.大小写…

WinForm(十二)画图

在.NET中&#xff0c;画图主要是通过Graphics类实现的&#xff0c;这个类主要通过两类方法完成画图&#xff0c;一类是DrawXXX&#xff0c;画各种线条图形&#xff1b;另一类是FillXXX,用各种形状&#xff0c;填充各种图形。Graphics是画板&#xff0c;Draw各个方法是各种盏笔&…

从4个方面简单介绍SaaS

你了解什么是SaaS吗&#xff1f;SaaS有什么优势&#xff1f;选择SaaS平台要注意哪些要素&#xff1f;在这里&#xff0c;怡海软件将针对这些问题进行简单介绍&#xff1a; 什么是SaaS&#xff1f;SaaS是Software-as-a-Service&#xff08;软件即服务&#xff09;的简称&#xf…

终于找到你!如何将前端console.log的日志保存成文件?

本篇文章来自一个需求&#xff0c;前端websocket会收到各种消息&#xff0c;但是调试的时候&#xff0c;我希望把websoekt推送过来的消息都保存到一个文件里&#xff0c;如果出问题的时候&#xff0c;我可以把这些消息的日志文件提交给后端开发区分析错误。但是在浏览器里&…

基于 .NET 6 开发的开源远程终端工具

你好&#xff0c;这里是 Dotnet 工具箱&#xff0c;定期分享 Dotnet 有趣&#xff0c;有用的工具&#xff0c;不要忘记关注。今天介绍一个非常实用的工具 mRemoteNG&#xff0c;这是一个基于 .NET 6 开发的远程终端软件&#xff0c;开源免费&#xff0c;不用担心版权和软件费用…

第六次作业—例行报告

本周PSP 进度条 代码累计折线图 博文累计折线图 本周饼状图 转载于:https://www.cnblogs.com/zej87/p/7738895.html

Tomcat7/8开启WebDAV的支持

WebDAV是一种超文本传输协议&#xff0c;Tomcat默认是支持WebDAV的&#xff0c;且默认为禁用状态。 更多详细信息&#xff0c;请参考&#xff1a; https://zh.wikipedia.org/wiki/WebDAV http://www.webdav.org/ 开启步骤如下&#xff1a; 1、在Tomcat的webapps目录下新建webda…

免费分享一些.NET Core比较优秀的社区资料和微软官方资料

这次小编所分享的这套笔记手册&#xff0c;主要是分享一些.NET Core比较优秀的社区资料和微软官方资料。已经把所有的重要知识点进行了完整的归类和整理&#xff0c;可以让大家更清晰和快速的学习.NET Core&#xff0c;不浪费任何多余的时间&#xff01;全网首发&#xff01;相…

python异或运算怎么算_小强学Python+OpenCV之-1.4.4掩膜mask及位运算(与、或、非、异或)...

问题引入在小强学PythonOpenCV之&#xff0d;1.4.2裁剪一节&#xff0c;我们使用的是numpy数组切片功能实现图片区域的裁剪。那么&#xff0c;如果我们想要裁剪图像中任意形状的区域时&#xff0c;应该怎么办呢&#xff1f;答案是&#xff0c;使用掩膜(masking)。但是这一节我们…

51 Nod 1670 打怪兽

1670 打怪兽lyk在玩一个叫做“打怪兽”的游戏。游戏的规则是这样的。lyk一开始会有一个初始的能量值。每次遇到一个怪兽&#xff0c;若lyk的能量值>怪兽的能量值&#xff0c;那么怪兽将会被打败&#xff0c;lyk的能量值增加1&#xff0c;否则lyk死亡&#xff0c;游戏结束。若…

QQ协议调试器 QQDebugger

QQ协议老变&#xff0c;为了分析协议&#xff0c;单用抓包工具还是不够的&#xff0c;还是得需要很好的调试工具。在网上找了几个调试工具&#xff0c;易用性均欠佳&#xff0c;不得已自己开发了一个 QQDebugger&#xff0c;不敢专美&#xff0c;特意发布出来。QQDebugger 在功…

Uptime-Kuma 一个轻量的开源监控工具

点击蓝字 关注我们你好&#xff0c;这里是 Dotnet 工具箱&#xff0c;定期分享 Dotnet 有趣&#xff0c;有用的工具&#xff0c;不要忘记关注。今天给大家介绍一个开源的监控工具 Uptime Kuma, 主要用来监控 Web 以及网络, 和 Prometheus 相比, 它是轻量的, Uptime Kuma 是基于…