Python离群值检测实战:使用distfit库实现基于分布拟合的异常检测

news/2025/10/5 1:21:45/文章来源:https://www.cnblogs.com/dBjZoQ/p/19126104

传感器监控、安全运营、欺诈检测——这些场景都需要及时发现异常状况。但是问题在于,异常样本出现频率低导致标注数据稀缺,监督学习模型难以构建。虽然异常(anomaly)和新颖性(novelty)这两个概念经常混用,但它们在建模假设和处理流程上存在本质差异。

本文会先讲清楚异常检测的核心概念,分析anomaly和novelty的区别,然后通过实际案例演示如何用概率密度拟合方法构建单变量数据集的无监督异常检测模型。所有代码基于distfit库实现。

Anomaly还是Novelty?差异在哪
两者都是偏离"常态"的观测值,统称为离群值(outlier)。离群值通常出现在分布的尾部,远离主体密度区域。如果某个值或某个小范围内出现显著的密度尖峰,也可能是潜在离群点。虽然检测目标一致,建模思路却不同:

Anomaly(异常):训练数据中已知存在离群值,它们偏离正常模式。建模策略是在正常样本(inlier)上拟合模型,忽略那些偏离样本,把落在正常行为范围外的观测识别为异常。

Novelty(新颖性):训练数据中不存在已知离群值,数据本身不包含偏离正常的观测。这种情况更棘手,因为缺少离群参照。领域知识在这里变得关键,避免模型在正常样本上过拟合。

三类离群值形态
刚才说了anomaly和novelty的建模差异,在建模前需要明确"在具体应用场景下,离群值长什么样"。离群值大致分三类(图1):

全局离群值(point outliers)指那些独立的、与所有其他观测都不同的单个数据点[1, 2]。平时说的"离群值"通常就是指这类。

上下文离群值(contextual outliers)是在特定上下文下不合理的观测。上下文可能体现为双峰或多峰分布,离群值在某个峰的范围内偏离。比如冬天零度以下正常,夏天就成了异常。时间序列、季节性数据、传感器数据、安全监控都会遇到这类问题。

集体离群值(collective outliers)是一组相似实例表现出的异常行为。这组离群点可能形成独立的峰,往往暗示着不同于单点异常的问题——批处理错误或数据生成过程的系统性问题。检测集体离群值通常需要专门的方法。

图1. 从左到右:全局离群值、上下文离群值、集体离群值示例

建模前还要考虑数据集维度。从特征数量看,异常检测分为单变量(univariate)和多变量(multivariate)两种方式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/927760.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

山东省建设工程 评估中心网站宁波网站建设招商加盟

当我们不想学习新知识的时候,并且特别无聊,就会突然先看看别人怎么写游戏的,今天给大家分享的是贪吃蛇,所需要的知识有结构体,枚举,以及easy-x图形库的一些基本函数就完全够用了,本来我想插入游…

aspx网站做app小说网站建设笺池斋

因为偶然要用到Oracle数据库,而平常工作中用的都是mySQL的,所以电脑上安装的都是MySQL的相关服务,今天用到Oracle本地没有,所以自己安装了一个,但是因为不熟悉,安装遇到了很多的坑,因此记录一下…

成都网站建设方案推广zend搭建wordpress

在本文中,我们将回答您在开始使用 React 时可能会问的 9 个常见问题。 1、开始使用 React 需要哪些技能和知识? 在深入研究 React 之前,您应该对以下内容有深入的了解: HTML、CSS 和 JavaScript (ES6)&a…

asp网站开发培训网页设计哪个培训机构好

梯度下降是我们在训练神经网络时用于训练参数的方法,本文总结了目前常用的几种梯度下降算法,包括原理、公式推导、解决的问题,主要要SGD、Momentum、NAG、AdaGrad、AdaDelta、RMSProp、Adam,先贴上手写的笔记,有时间再…

网站怎么做反爬虫wordpress 有赞

🧑‍🎓 个人主页:《爱蹦跶的大A阿》 🔥当前正在更新专栏:《VUE》 、《JavaScript保姆级教程》、《krpano》 ​ ​ ✨ 前言 Web Worker可以将耗时任务放到后台执行,避免阻塞UI。本文将详细介绍Web Worker的用法,让你…

网页制作和网站制作有什么区别建设网站的app

本文发布矩阵(Matrix)的一些初级算法。 一、矩阵的行列式(Determinant) 矩阵行列式是指矩阵的全部元素构成的行列式,设A(a)是数域P上的一个n阶矩阵,则所有A(a)中的元素组成的行列式称为矩阵A的行列式&…

服装服饰设计网站wordpress视频插件a vi

前言 《机器学习-回归问题》知道了回归问题的处理方式,分类问题才是机器学习的重点.从数据角度讲,回归问题可以转换为分类问题的微分 逻辑回归 逻辑回归(Logistics Regression),逻辑回归虽然带有回归字样,但是逻辑回归属于分类算法。但只可…

有引导的网站企业网站免费模板

1 前言 IJKPLAYER在视频render之时,并非简单使用SDL渲染API,而是用了OpenGL ES,再分别在Android和iOS平台做视频的显示;一言以蔽之,OpenGL ES并不能做到直接在窗口上render并显示,而是需要一个中间媒介。这…

北京微信网站建设报价单跨境电商在哪些网站上面做

介绍: zabbix是对服务器资源状态例如、内存空间、CPU、程序运行状态进行检测、设置预警值、短信设置等功能等一款开源工具。配置不当存在未授权,SQL注入漏洞 弱口令 nameadmin&passwordzabbix nameguest&password POST /index.php HTTP/1.1 Host: 192.1…

US$33.25 Key Shell for XHORSE XZKA82EN Exclusively for Hyundai Kia Models 5pcs/lot

Key Shell for XHORSE XZKA82EN Exclusively for Hyundai & Kia ModelsThe Shell for XHORSE XZKA82EN Exclusively for Hyundai & Kia ModelsPackage includes:5pcs x The Shell for XHORSE XZKA82EN Exclusi…

网站开发与维护费用网站多数关键词

宇电的设备使用基于RS-485的自定义协议,协议本身比较简单,只有2条指令: 读:地址代号52H(82) 要读的参数代号00校验码 写:地址代号43H(67)要写的参数代号写入数低字节写…

没有,不要模拟登录的,太慢没有效率

没有,不要模拟登录的,太慢没有效率你说的 “不要模拟登录的,太慢没有效率”,我理解是针对 手机验证码登录 / 签到 这类软件的实现方式里的一种区别:🔹 1. 什么是“模拟登录”?模拟登录 = 程序伪装成用户,去模…

南昌网站开发培训中心建筑行业网站建设

Java使用3DES加密解密的流程①传入共同约定的密钥(keyBytes)以及算法(Algorithm),来构建SecretKey密钥对象SecretKey deskey new SecretKeySpec(keyBytes, Algorithm);②根据算法实例化Cipher对象。它负责加密/解密Cipher c1 Cipher.getInstance(Algor…

高端大气网站推荐房屋设计装修网站

股票普通买卖 股票买入 通过选择委托方向实现股票的买入与卖出,可根据输入的价格自动查询可买数量。 用鼠标点击【买入】,如图所示: 输入股票代码并选中后,选择委托类型,若为限价类型,输入委托价格&#xf…

网站如何获取用户信任如何制作自己的个人网站

转染试剂是瞬时转染生产病毒载体的主要原材料之一。作为上游病毒生产的重要原物料之一,转染试剂对病毒载体的产能具有重要影响。而转染试剂的转染效率、稳定性都直接影响着大规模病毒载体生产的产能与周期。因此,了解PEI转染试剂正确的保存方法对于保障实…

资讯门户类网站模板六安发布

大家好,我是雄雄,前几天总结了下面试别的班时所出现的问题,今天,3班进行了第一次模拟面试。虽然在面试之前千叮咛万嘱咐,但是在正式模拟面试时还是有些问题。一方面由于这样的模拟面试以前没有过,所以紧张过…

版面设计素材网站北京网站设计推荐柚米

OSI七层模型和TCP/IP四层模型 业内普遍的分层方式有两种:OSI七层模型 和TCP/IP四层模型。记忆则为 “应表会传网数物” 关于协议: ① OSI七层模型详解 结构名 功能 主要设备 应用层 是最靠近用户的OSI层。用户接口、应用程序。应用层向应用进程展示…

week01 编码规范

week01 编码规范编码规范文件与目录规范• 头文件引用: 使用 <> 引用系统头文件或预定义路径的头文件,例如 #include <iostream> 。 使用 "" 引用当前目录或相对路径的头文件,例如 #i…

如何做微信ppt模板下载网站珠海企业网站推广服务

当你的计算机知识还撑不起你的学习、工作时&#xff0c;那你就应该静下心来刷计算机等级考试题库-二级C语言试题。1)下列叙述中正确的是( )。A.解决同一个问题的不同算法的时间复杂度一般是不同的B.解决同一个问题的不同算法的时间复杂度必定是相同的C.对同一批数据作同一种处理…

做化妆品注册和注册的网站有哪些大品牌设计公司

栈和队列 栈&#xff08;stack&#xff09;&#xff0c;有些地方称为堆栈&#xff0c;是一种容器&#xff0c;可存入数据元素、访问元素、删除元素&#xff0c;它的特点在于只能允许在容器的一端&#xff08;称为栈顶端指标&#xff0c;英语&#xff1a;top&#xff09;进行加…