找合伙人的网站做淘宝代理服务器地址是什么意思
找合伙人的网站做淘宝,代理服务器地址是什么意思,做网站公众号要多少钱,网址导航浏览器大全一、应用背景
目前#xff0c;针对审计行业#xff0c;关于大数据技术的相关研究与应用一般包括大数据智能采集数据技术、大数据智能分析技术、大数据可视化分析技术以及大数据多数据源综合分析技术。其中#xff0c;大数据智能采集数据技术是通过网络爬虫或者WebService接…一、应用背景
目前针对审计行业关于大数据技术的相关研究与应用一般包括大数据智能采集数据技术、大数据智能分析技术、大数据可视化分析技术以及大数据多数据源综合分析技术。其中大数据智能采集数据技术是通过网络爬虫或者WebService接口实现跨部门在线数据交互大数据的多数据源综合分析技术是目前审计领域应用大数据比较成熟和主流的内容它是通过对采集来的各行、各业、各类大数据采用数据查询等常用方法或其他大数据技术方法进行相关数据的综合比对和关联分析从而可以发现更多隐藏的审计线索。本文以大数据智能采集数据技术和大数据多数据源综合分析技术为例设计大数据审计案例。
二、方案设计
本次以失业保险基金专项审计为案例设计大数据审计方案由下图可以看出大数据审计的流程是首先广泛采集不同原始数据原始数据存在噪声、异常值、缺失值等问题所以需要对原始数据预处理方便后面数据分析接着根据业务需求选择合适的数据分析模型数据量大的话可以选择MySQL、oracle、SqlServer等SQL语言对数据进行查询分析数据量小的话可以选择excel常用的内嵌函数技术是服务项目的能解决项目问题的技术就是好技术最后根据数据分析结果发现审计疑点。
三、数据采集、预处理
在民生资金审计项目中要根据审计实施方案明确数据采集范围。失业保险基金审计项目需要采集的数据有业务数据和外部关联数据。业务数据包含相关政策法规、公示公告信息、领取失业补助金明细表、技能提升补贴明细表等这些数据由被审计单位提供也可以通过网络爬虫的方式获取政策法规、公示公告等文本信息。外部关联数据包含社保缴费记录、死亡信息、移民境外数据、被判刑收监执行数据等这些数据包含一些敏感信息难以直接采集有的信息需要逐条从相关信息系统查询给大数据审计工作带来阻力。 1、网络爬虫应用背景 2、什么是网络爬虫
网络爬虫是一种自动化程序可以从互联网上抓取数据。爬虫通过HTTP协议与互联网上的服务器进行通信获取HTML页面或者其他格式的数据。这些数据可以用于各种用途例如搜索引擎、数据挖掘、舆情监测等。
3、Java中的网络爬虫框架 Java中有很多优秀的网络爬虫框架例如Jsoup、HttpClient、WebMagic等。本文将以WebMagic为例介绍如何使用Java编写一个简单的网络爬虫程序。4、WebMagic介绍 WebMagic是一个基于Java开发的分布式网络爬虫框架。它提供了简单易用的API接口可以方便地进行定制化开发。WebMagic支持多线程下载和分布式处理并且支持解析HTML、XML和JSON等多种页面格式。5、WebMagic的基本使用
①、定义一个爬虫类实现PageProcessor接口并重写其process方法。②、在process方法中编写抓取逻辑包括解析页面、提取数据等操作。③、使用WebMagic提供的选择器(Selector)工具可以通过CSS选择器、XPath等方式来定位页面元素。④、利用Page对象提供的方法获取页面数据并保存到自定义的数据结构中。⑤、在抓取逻辑完成后将数据输出到文件、数据库或其他目标。
6、具体Java代码实现
package com.nzsjj.service;import com.nzsjj.entity.Title;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.stereotype.Service;
import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.processor.PageProcessor;
import us.codecraft.webmagic.selector.Selectable;import java.util.List;
import java.util.Random;/*** 功能PageProcessor负责解析页面抽取有用信息以及发现新的链接* 作者郝xx* 单位xxx审计局*/Service(sxsProcessor)
public class SXSProcessor implements PageProcessor {private Logger logger LoggerFactory.getLogger(this.getClass());//xx县人民政府网网址static String URLhttp://www.xxx.gov.cn/xwzx/gsgg/index.shtml;public String getURL(){return URL;}//抓取网站的相关配置包括编码、抓取间隔、重试次数等private Site siteSite.me()// 设置字符编码集.setCharset(utf-8)// 设置线程休眠时间.setSleepTime(new Random().nextInt(20)*1000)// 设置Http连接重试次数.setRetryTimes(3);//process是定制爬虫逻辑的核心接口在这里编写抽取逻辑Overridepublic void process(Page page) {String urlNumnull;//获取页面页数if (URL.contains(index_)){urlNumURL.substring(URL.indexOf(index_)6,URL.indexOf(index_)7);}else {urlNum0;}logger.info(爬取南漳县人民政府网公示公告栏第(Integer.valueOf(urlNum)1)页类容);//解析页面内容ListSelectable nodes page.getHtml().xpath(//div[classcontent-news]).nodes();for (Selectable node:nodes) {//通过Xpath解析信息分析xx县人民政府网公示公告模块信息//文章名称String titleName node.xpath(//h3[classellipsis]/a/text()).get();//文章的详细网址String titleUrlnode.xpath(//a/href).get();//发布时间String timenode.xpath(//span[classtime]/text()).get();if (titleNamenull
// || !titleName.contains(技能提升补贴)
// || !titleName.contains(稳岗)
// || !titleName.contains(失业保险)){continue;}Title title new Title();title.setTitleName(titleName);title.setTitleUrl(titleUrl);title.setTime(time);logger.info(title.toString());}//页数加一Integer pageIndexInteger.valueOf(urlNum)1;//停止爬虫的条件if(pageIndex100) return;//替换掉url中的页数if (URL.contains(index_)){URL URL.replace(URL.substring(URL.indexOf(index_),URL.length()),index_String.valueOf(pageIndex).shtml);}else {URL URL.replace(URL.substring(URL.indexOf(index),URL.length()),index_String.valueOf(pageIndex).shtml);}//跳转下一页page.addTargetRequest(URL);}/*** 返回site对象* site是站点配置 使用Siteme()创建site对象* return*/Overridepublic Site getSite() {return site;}
}7、数据分析之前为什么要对原始数据进行预处理
原始数据往往存在噪声、异常值、缺失值等问题这些问题会对数据分析结果产生负面影响。通过数据预处理可以除去噪声和异常值填补缺失值提高数据质量。
原始数据 预处理后的数据
四、数据分析
基于多数据源综合分析技术的失业保险基金大数据审计原理就是根据被审计单位提供的受补人员明细与医保局、社保局、民政、公安等部门数据进行综合分析从而发现相关审计线索在此基础上通过进一步的延伸取证最终获得审计证据。其原理如图一所示具体步骤如下 以相关政策法规为依据 将领取失业保险金的人员明细与社保数据、民政数据、公安数据等关联对比分析判断失业人员领取失业保险金补助的条件是否符合领取补贴月数是否合规。
SQL:
select * from 失业保险金受补明细表,社保数据
where 失业保险金受补明细表.身份证号社保数据.身份证号
and 失业保险金受补明细表.身份证号民政数据.身份证号
and ……EXCEL: vlookup函数
五、应用效果
在审计项目实施过程中数据组成员根据大数据审计方案采用网络爬虫方式采集非结构化数据文本数据爬虫能够获取全面的获取数据提高了数据的精准性同时节约人力和时间大大提升了工作效率。根据项目具体实施情况制定合适的数据分析模型帮助审计人员快速发现审计疑点在本次失业保险基金专项审计项目中发现多个审计疑点其中苏某、赵某、王某三人在就业期间领取就业补助金涉及金额共计27,000元。
六、应用特点 优点 网络爬虫采集数据快速、精准审计人员操作简单节省了人力、时间制定大数据多数据源综合分析技术能够帮助审计人员快速发现审计疑点缩小审计范围提高了工作效率。 缺点 该爬虫程序访问受限。由于该程序部署在本地电脑只有电脑开机并启动程序时审计人员才能访问该程序。其次外围数据访问受限不利于数据关联分析。
七、推广建议
在数据采集过程中。为了使网络爬虫技术更好的应用于审计项目中需要计算机人员了解审计业务经常需要访问的网站并对不同的网站进行分析设计出特有的爬虫程序该程序可根据用户输入的网址选择特定的爬虫方式这样就扩大了该项技术的应用范围提高审计工作效率。 在数据应用过程中审计部门是数据需求的主动方数据拥有方处于被动配合的地位。想要更好的实现大数据多数据源综合分析技术需要拥有者和使用者首先进行协商然后由数据拥有方按照自身的责任和义务对所管理的数据进行业务功能归类供数据需求方调用。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/85890.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!