自动生成web服务器日志解析规则

2019独角兽企业重金招聘Python工程师标准>>> hot3.png

当前web服务器的多样化使得访问日志的数据清洗变得越来越复杂,企业需要投入专业的数据清洗人员编写数据清洗规则(解析规则或者解析正则),或者需要关心web服务器访问日志的生成规则。手写web服务数据解析规则存在以下3个问题:(1)需要投入专业技术人才完成编写,成本高;(2)人工书写解析规则容易犯错;(3)解析规则生成不可复用,新的web服务需要重新编写。如果能自动生成web服务器的日志,将大大提高web服务器日志接入和数据可视化过程。基于此,袋鼠云技术小组自研了日志解析规则自动生成组件,适用于nginx、apcahe、iis服务器,同时兼容类似这三种服务器日志规范的其他web服务器。以下内容将详细说明web日志解析规则自动生成的过程,关键步骤有图片演示。

 

web服务器的日志往往有着一定的规范,比如nginx的日志规范如图所示,参见这里:

WEBRESOURCE7485e808caae471fcd9d6f23e9ba8

如上设置,日志内容将严格按照设定的字段顺序打印,缺失的字段会适用占位符,如符号‘-‘,各字段被分隔符依次分开。

以下内容的基本原理是:

(1)日志取样,获取行日志分割符,把日志按照分隔符拆分;

(2)依次解析分割后的字段,生成字段类型序列;

(3)按照字段类型和顺序,依次给字段命名,生成解析规则;

以上过程的流程图如图所示:

WEBRESOURCE6e9bece187f81edcc943452f293de

样例演示

使用如上的方法生成下图所示的nginx样例日志的解析规则:

WEBRESOURCEae910dd33e4c01aefa93957c3faab

 

 

首先进行字段拆分,按照字段顺序生成正则序列,如下图所示,样例日志中依次包含IP、时间、URL,数字和用户浏览器标识useragent字段;

WEBRESOURCE4392963022c11faf4cc6a29b82089

 

然后按照正则序列对字段进行映射,样例日志是nginx日志,nginx日志的默认类型和字段映射关系如下:

IP->remoteAddr,

TIMESTAMP->timeLocal,

URL->request,

NUM1->status,

NUM2->bodybytesSend,

USERAGENT->useragent;

映射之后生成默认解析规则,结果如下图所示,生成结束。

然后对生成的解析规则进行多轮检验并重复以上过程,最终生成匹配度最高的解析规则。

 

转载于:https://my.oschina.net/u/3611008/blog/2876082

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/253031.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mybatis一级缓存二级缓存

一级缓存 Mybatis对缓存提供支持,但是在没有配置的默认情况下,它只开启一级缓存,一级缓存只是相对于同一个SqlSession而言。所以在参数和SQL完全一样的情况下,我们使用同一个SqlSession对象调用一个Mapper方法,往往只执…

CMOS Sensor的调试分享

目前,包括移动设备在内的很多多媒体设备上都使用了摄像头,而且还在以很快的速度更新换代。目前使用的摄像头分为两种:CCD(Charge Couple Device电荷偶合器件)和 CMOS(Complementary Metal Oxide Semiconductor互补金属氧化物半导体)。这两种各…

利用反射修改final数据域

当final修饰一个数据域时,意义是声明该数据域是最终的,不可修改的。常见的使用场景就是eclipse自动生成的serialVersionUID一般都是final的。 另外还可以构造线程安全(thread safe)的immutable类,比如String&#xff0…

mysql简单创建数据库权限(待修改备注)

CREATE DATABASE web DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;一、环境:CentOS 6.8mysql 5.6二、背景给外包的工作人员提供我司某台服务器的 mysql 中某个数据库的访问权限。之所以要做限制,是防止他们对我司其他的数据库非法进行操作。三、…

Centos 能ping通域名和公网ip但是网站不能够打开,服务器拒绝了请求。打开80端口解决。...

博客搬迁,给你带来的不便,敬请谅解! http://www.suanliutudousi.com/2017/10/29/centos-%E8%83%BDping%E9%80%9A%E5%9F%9F%E5%90%8D%E5%92%8C%E5%85%AC%E7%BD%91ip%E4%BD%86%E6%98%AF%E7%BD%91%E7%AB%99%E4%B8%8D%E8%83%BD%E5%A4%9F%E6%89%93…

ISP 图像传感器camera原理

1、Color Filter Array — CFA 随着数码相机、手机的普及,CCD/CMOS 图像传感器近年来得到广泛的关注和应用。 图像传感器一般都采用一定的模式来采集图像数据,常用的有 BGR 模式和 CFA 模式。BGR 模式是一种可直接进行显示和压缩等处理的图像数据模式&am…

51nod 1027 大数乘法

1027 大数乘法基准时间限制&#xff1a;1 秒 空间限制&#xff1a;131072 KB 分值: 0 难度&#xff1a;基础题收藏关注给出2个大整数A,B&#xff0c;计算A*B的结果。 Input第1行&#xff1a;大数A 第2行&#xff1a;大数B (A,B的长度 < 1000&#xff0c;A,B > 0&#xff…

file mmap

do_set_pmd统计参数只会在这里设置&#xff1a; add_mm_counter(vma->vm_mm, MM_FILEPAGES, HPAGE_PMD_NR);但是这貌似都是处理大页的情况哪&#xff0c;小页呢&#xff1f; alloc_set_pte中有函数&#xff1a;inc_mm_couter_fast(vma->vm_mm, mm_couter_file(page)&…

Linux链接库三(C跟C++之间动态库的相互调用)

http://www.cppblog.com/wolf/articles/74928.html http://www.cppblog.com/wolf/articles/77828.html http://www.jb51.net/article/34990.htm C和C之间库的互相调用 extern "C"的理解&#xff1a; 很多人认为"C"表示的C语言&#xff0c;实际并非如此&…

C#如何开发多语言支持的Winform程序

C# Winform项目多语言实现(支持简/繁/英三种语言)有很多种方案实现多语言&#xff0c;我在这里介绍一种最简单最容易理解的&#xff0c;作为教学材题应该从通俗易懂入手。在写这篇文章之前&#xff0c;本来想用枚举窗体对象成员的方式设置语言&#xff0c;但是找不到源代码了&a…

Alpha 冲刺 (2/10)

Alpha 冲刺 &#xff08;2/10&#xff09; 队名&#xff1a;第三视角 组长博客链接 本次作业链接 团队部分 团队燃尽图 工作情况汇报 张扬&#xff08;组长&#xff09; 过去两天完成了哪些任务&#xff1a; 文字/口头描述&#xff1a; 1、学习qqbot库&#xff1b; 2、实时保存…

Linux学习之第二课时--linux命令格式及命令概述

命令概述 Linux提供了大量的命令&#xff0c;利用它可以有效地完成大量的工作&#xff0c;如磁盘管理&#xff0c;文件存取&#xff0c;目录操作&#xff0c;进程管理&#xff0c;文件权限设定等 Linux命令格式 Linux命令的组成部分&#xff1a;命令字 命令选项参数&#xff…

Linux C语言调用C++动态链接库

Linux C语言调用C动态链接库 标签&#xff1a; C调用C库 2014-03-10 22:56 3744人阅读 评论(0) 收藏 举报 分类&#xff1a; 【Linux应用开发】&#xff08;48&#xff09; 版权声明&#xff1a;本文为博主原创文章&#xff0c;未经博主允许不得转载。 如果你有一个c做的动态…

Android实践 -- 对apk进行系统签名

对apk进行系统签名 签名工具 网盘下载 &#xff0c;需要Android系统的签名的文件platform.x509.pem 和 platform.pk8 这个两个文件在Android源码中的 ./build/target/product/security 目录下 具体的使用方法&#xff1a; java -jar signapk.jar platform.x509.pem platform.…

Java编写基于netty的RPC框架

一 简单概念RPC: ( Remote Procedure Call),远程调用过程,是通过网络调用远程计算机的进程中某个方法,从而获取到想要的数据,过程如同调用本地的方法一样.阻塞IO :当阻塞I/O在调用InputStream.read()方法是阻塞的,一直等到数据到来时才返回,同样ServerSocket.accept()方法时,也…

linux下c和c++互相调用

c调用cpp 创建个目录 创建4个文件 c.c--c文件 cpp.cpp--c文件 cpp.hh--c声明文件 Makefile c.c [javascript] view plaincopy#include "cpp.hh" int main() { cpp_fun(); } cpp.cpp [cpp] view plaincopy#include "cpp.hh" #include <stdi…

Applications Manager Docker监控

Docker 是一个流行的开源容器应用程序&#xff0c;允许您将应用程序、应用程序的内部依赖和关联库打包到一个单元中。Docker 的主要优点在于单台机器上的多个 docker 容器共享同一操作系统内核&#xff0c;这可以帮助提升性能和节省大量内存。监控 docker 容器会很困难&#xf…

find

Linux中find常见用法示例 find path -option [ -print ] [ -exec -ok command ] {} \; find命令的参数&#xff1b; pathname: find命令所查找的目录路径。例如用.来表示当前目录&#xff0c;用/来表示系统根目录。-print&#xff1a; find命令将匹配的文件输出…

PHP将多个文件中的内容合并为新的文件

function test(){$hostdir iconv("utf-8","gbk","C:\Users\原万里\Desktop\日常笔记") ; //iconv()转换编码方式&#xff0c;将UTF-8转换为gbk&#xff0c;若是报错在gbk后加//IGNORE$filesnames scandir($hostdir); …

HTTP Live Streaming直播(iOS直播)技术分析与实现

不经意间发现&#xff0c;大半年没写博客了&#xff0c;自觉汗颜。实则2012后半年&#xff0c;家中的事一样接着一样发生&#xff0c;实在是没有时间。快过年了&#xff0c;总算忙里偷闲&#xff0c;把最近的一些技术成果&#xff0c;总结成了文章&#xff0c;与大家分享。 前些…