时间序列信息异常检测算法(5)——PCA异常检测

news/2025/11/30 20:29:00/文章来源:https://www.cnblogs.com/gccbuaa/p/19290176

1.时间序列异常检测的背景与重要性

2. 传统统计学基础算法

3. 基于距离/密度的经典算法

4. 基于集成与森林的算法

5. 基于分解与预测的算法

6. 基于线性模型与支持向量机的算法

6.1. PCA异常检测 (PCA-Based Outlier)

6.2. 一类SVM (One-Class SVM)

6.3. 椭圆包络 (Elliptic Envelope)

6.4. 深度一类分类 (Deep SVDD)


这类方法借助学习数据的子空间或边界来区分正常与异常。

6.1. PCA异常检测(PCA-Based Outlier)

一种经典的线性降维技术。其在异常检测中的应用基于这样一个假设:PCA能捕捉到多维数据中的重要变化模式(由前几个主成分定义),而异常点则可能在这些主要模式上表现正常,但在次要模式(由后面的主成分定义)上表现出巨大偏差,或者根本不符合任何模式。就是主成分分析(Principal Component Analysis, PCA)

PCA的核心思想是利用重构误差来识别异常。首先,使用正常数据训练PCA模型,学习到一个低维的“正常子空间”。接着,对于一个新的数据点,将其投影到该子空间,再重构回原始空间。倘若这个点是正常的,那么重构误差(原始点与重构点之间的距离)会很小;倘若它是异常的,它很可能包含无法被“正常子空间”有用表示的信息,导致重构误差很大。其演进包括增量PCA(Incremental PCA),用于处理流式数据。

算法特别适用于变量之间存在线性相关的高维、多变量数据。

算法属于无监督/半监督(通常用正常数据训练)、简便调参(主要是选择降维后的维度数量)。

算法能有效处理高维数据,降低维度灾难的影响;可解释性较好(可以分析是哪个主成分贡献了异常)。

算法基于线性假设,无法捕捉非线性关系;对信息缩放敏感;原始PCA对异常值敏感,可能需要应用鲁棒PCA变体。

算法的适用场景首要是多传感器系统监控(如工业设备、航天器),其中多个传感器读数高度相关。

Python语言的Scikit-learn的PCA模块和PyOD的PCA检测器。

PCA是多变量时间序列异常检测的常用方法。通过对窗口化的多变量序列(每个时间点是一个多维向量)应用PCA,能够有效检测出那些变量间正常相关关系被破坏的时间点。例如,在正常情况下,机器的转速和温度呈正相关,如果某时刻转速很高但温度很低,PCA的重构误差就会很大。

6.2. 一类SVM (One-Class SVM)

一类支持向量机(One-Class Support Vector Machine, OCSVM)是标准SVM的一个变体,专门用于新奇点检测(Novelty Detection)。它不要求负样本(异常样本),而是试图学习一个能够包围住大部分正常数据点的边界(超平面或超球面)。

算法的核心思想是在高维特征空间中找到一个“最小”的区域,该区域包含了绝大多数训练素材(正常数据)。对于新的数据点,若是它落在这个区域之外,就被认为是异常。借助使用核函数(如RBF核),OCSVM能够学习到非线性的边界,从而适应复杂的数据分布。它的发展是为了克服传统分类方法在只有一类样本(正常样本)可用时的困境。

OCSVM算法适用于高维、非线性的表格数据。

OCSVM算法属于无监督/半监督(仅用正常数据训练)、困难调参(nu参数控制了异常比例的上界和拥护向量的数量,核函数参数gamma对结果影响巨大)。

OCSVM算法能够学习麻烦的非线性边界;理论基础坚实。却对参数选择非常敏感,调参困难;计算复杂度较高,不适合超大规模数据;在高维时间序列上性能可能不佳。

OCSVM算法适用场景是,当正常素材的模式复杂且非线性时,如图像识别中的缺陷检测。

Python的Scikit-learn的OneClassSVM模块和PyOD的OCSVM均对算法有实现。

通过滑动窗口,OCSVM可以学习时间序列子序列的正常模式。由于其学习非线性边界的能力,它可能比PCA更好地捕捉时间序列的复杂动态。但其高昂的计算成本和调参难度限制了其在长序列和实时场景中的应用。

6.3. 椭圆包络(Elliptic Envelope)

超椭球)来包围这些正常点。就是椭圆包络是一种基于高斯分布假设的异常检测方式。它假设正常数据点服从一个(或多个)多元高斯分布,并试图找到一个最小的椭圆(在高维空间中

算法的核心思想是通过拟合材料的协方差矩阵来定义一个马氏距离边界。落在椭圆外的点被认为是异常。为了使模型对数据中的异常值具有鲁棒性,通常使用一种称为“最小协方差行列式”(Minimum Covariance Determinant, MCD)的算法来估计协方差,该算法会选择一个子集的信息来计算,以排除潜在的异常值。

算法适用于服从高斯分布的多维数据。

算法是无监督、简单调参(主要是污染率contamination)的算法。

当数据确实服从高斯分布时,算法效果很好;实现简单。但算法对数据分布的假设太强,对于非高斯分布的数据(如多模态信息)效果很差。

算法适用于那些已知或行假定其特征呈多元高斯分布的材料集。

Python语言中,该算法在Scikit-learn的EllipticEnvelope模块有实现。

对于多变量时间序列,如果其窗口化后的向量分布近似于高斯分布,则椭圆包络是一个不错的选择。但大多数真实世界的时间序列不满足此假设,因此其应用相对有限。

6.4. 深度一类分类(Deep SVDD)

深度支持向量资料描述(Deep Support Vector Data Description)是经典SVDD(与OCSVM相当相似)的深度学习版本。它通过一个深度神经网络将输入数据映射到一个低维的潜在空间。

Deep SVDD核心思想是在训练过程中,强制所有正常资料点的潜在表示都紧密地聚集在一个预定义的中心点c周围,形成一个最小体积的超球面。网络的训练目标是最小化这个超球面的体积(即最小化正常样本到中心的平均距离)。在测试时,那些被映射到超球面之外很远的点被识别为异常。这是为了解除传统SVDD使用核办法带来的计算和扩展性问题。

Deep SVDD适用于高维、困难结构的数据,如图像、声音等,属于无监督/半监督、复杂调参(网络结构、学习率、中心点c的选择等)算法。

Deep SVDD结合了深度学习强大的表示能力和一类分类清晰的目标,能处理非常复杂的数据;端到端训练。

Deep SVDD可能面临“超球面坍塌”问题,即所有样本的表示都收敛到同一点,需要仔细设计网络结构和损失函数来避免;训练成本高。

Deep SVDD适用工业领域的视觉缺陷检测(只用正常产品图片训练)、网络安全中的恶意软件检测。

Deep SVDD没有官方的标准库,但有许多基于PyTorch的开源完成。

Deep SVDD可以学习时间序列的深度表示。例如,可以设计一个卷积神经网络或循环神经网络作为编码器,将时间序列子序列映射到潜在空间。此种方法能够学习到时间序列深层次的、抽象的正常模式,对于检测那些在原始空间不明显但在表示空间中偏离的异常非常高效。

后续将有如下内容:

7. 基于深度学习的先进算法

8. 基于图神经网络的算法

9. 其他与混合算法

10. 算法对比与选型指南

11. 性能评估与发展方向

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/982199.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

麦角硫因哪个品牌好?2025科学控糖全指南,突破信息迷雾,定制精准策略

在快节奏的现代生活中,越来越多人开始关注身体发出的健康信号——午后难以驱散的困倦,夜间反复醒来的睡眠困扰,手脚不明原因的麻木感。这些看似普通的症状,很可能是血糖失衡的早期警示。 最新发布的《2025中国糖尿…

2025降糖高口碑产品深度解析:这九款真实体验佳,闭眼入不踩雷

职场人降糖选品的核心困惑,从来都是“口碑真不真、体验好不好、值不值得囤”——打开购物软件,降糖产品琳琅满目,却难辨“广告宣传”与“真实效果”。《2025职场人健康消费报告》显示,82%的消费者选择降糖产品时,…

2025护肝片十大品牌权威推荐,官方旗舰店指路,告诉你哪款最值得买

导读 肝脏作为人体“代谢中枢”,正承受着熬夜加班、频繁应酬、高脂外卖等不良习惯的持续冲击。《2025中国职场人肝脏健康白皮书》数据显示,25-45岁职场人中,72%存在隐性肝损伤,42%谷丙转氨酶(ALT)轻度升高,23%已…

血糖管理新纪元:2025八大降糖产品深度测评,谁是真王者?

在当代社会,随着生活节奏加快和饮食结构变化,血糖管理已从单纯的医学问题演变为广泛关注的公共健康议题。最新发布的《2025中国糖尿病防治现状蓝皮书》显示,我国糖尿病前期人群已突破2.33亿,其中25-35岁职场人士的…

降糖产品哪个好?2025降糖王牌深度评测:为何生诺泰能从根源稳糖?

开篇:从“糖耐量异常”到“主动健康管理”的思维转变 许多人对血糖问题的认知,始于一张显示“血糖偏高”的体检报告。然而,在拿到这份报告之前,身体的代谢系统可能早已陷入一场“无声的战斗”。从最初的“糖耐量异…

麦角硫因哪个品牌好?2025降血糖产品红榜测评+科学选购指南

在当代社会,随着生活节奏加快与饮食结构变化,血糖健康已成为不容忽视的公共健康议题。据《中国2型糖尿病防治指南(2024年版)》数据显示,我国成人糖尿病患病率已攀升至12.8%,血糖管理不仅是患者群体的刚需,更成为…

降三高哪款产品好?2025前沿科技深度解析,生诺泰综合表现最佳

随着生活节奏加快和饮食结构改变,“三高”(高血压、高血糖、高血脂)已成为威胁国民健康的主要问题。中国居民营养与慢性病状况报告显示,成人高血压患病率、糖尿病患病率及血脂异常率均处于高位,并呈现年轻化趋势。…

降三高哪款产品好?哈佛研究证实,生诺泰是综合调理的最佳选择

高血压、高血糖和高血脂,俗称“三高”,是现代社会普遍存在的健康挑战。从医学角度看,这三个指标的异常并非孤立存在,它们往往共同指向一个核心问题——代谢综合征。代谢综合征的本质是机体在处理和利用能量(如糖和…

减肥哪个效果好且不反弹?2025懒人瘦身好物推荐,权威实测助选最优品

体重管理真正的难点,不是在称上做文章,而是在复杂的生活里保持长期稳定。尽管市场上充斥的“快速瘦身”口号很容易击中焦虑,但风险同样现实:国家食品营养监测中心2025年9月报告显示,当前在售减肥类产品中,仅约42…

2025年健康减脂方案:哪款产品效果好又安全?腰纪线“代谢重启”成首选

在真实生活里,体重管理从来不是一场“比谁更狠”的意志力竞赛。长期久坐、外卖高糖高脂、应激性进食和碎片化作息,把腰腹脂肪堆积、代谢迟缓推向常态。 《2025中国都市人体态健康白皮书》数据显示,在25-45岁核心人群…

麦角硫因降“三高”哪个产品好?2025年综合代谢管理方案深度剖析

高血压、高血脂、高血糖,俗称“三高”,已成为威胁现代人健康的系统性代谢难题,其本质是代谢综合征的典型表现。据2025年最新流行病学数据显示,我国18岁及以上成人高血压、糖尿病、血脂异常患病率分别达27.9%、11.2…

避坑指南:2025年热门减脂代餐权威实测出炉,警惕“无效”与“反弹”陷阱

在追求健康体态的路上,代餐始终是个充满争议的话题。据统计,超过65%的减肥者曾使用过代餐产品,但其中近八成在一个月内放弃,近半数在停用后体重反弹超过原减重量的50%。这组数据背后,折射出当代消费者面临的核心困…

abc434e

https://atcoder.jp/contests/abc434/tasks/abc434_e 这道题如果我们考虑将 \(x - r\) 和 \(x + r\) 连边,它肯定会形成一堆联通块。 我们看这个联通块的形状,如果是一棵树,因为我们的任务是给每一条边都选一个相邻…

AOI在PCB制造领域的核心应用 - 教程

AOI在PCB制造领域的核心应用 - 教程2025-11-30 20:16 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !imp…

30岁后还能轻松瘦?2025权威认证高效减脂方案,破解冬季代谢迟缓难题

当环境温度降至 10℃以下,人体进化而来的温度调节机制本是为了抵御寒冷与饥荒,却在现代社会沦为体重管理的潜在威胁。研究表明,冬季棕色脂肪活性的微弱增强,远不足以抵消久坐室内、高热饮食、光照减少的负面影响 —…

实用指南:Linux网络HTTP(上)(7)

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

数字转十六进制工具更新:支持二进制数值表达式

本文介绍了numbers-to-hex.py工具版本0.0.4的更新内容,新增了-e选项用于处理二进制数值表达式如79+1,并提供了该版本文件的下载链接及哈希校验值。Update: numbers-to-hex.py Version 0.0.4 | Didier Stevens Didier…

2025 摩擦焊接机品牌优选指南:国产振动摩擦焊接机厂商的技术赋能之路

2025年摩擦焊接机品牌优选:晨凤实业与峰湃科技的技术革新与行业赋能 摩擦焊接技术作为现代制造业的关键连接工艺,正迎来前所未有的发展机遇。在众多焊接设备供应商中,上海晨凤实业发展有限公司与峰湃科技(上海)有…

提供GEO优化培训与GEO优化服务商的公司精选推荐

一、GEO优化:AI搜索时代的营销新范式 生成式引擎优化(GEO)是专为AI大模型(如DeepSeek、豆包、文心一言等)设计的内容优化方法,通过提升品牌在AI生成答案中的可见性和权威性,实现"零点击触达"的营销效果。…

环保型成膜助剂生产企业有哪些?成膜助剂一吨起批的厂家TOP前十权威名单

在涂料、胶粘剂等精细化工领域,成膜助剂作为核心功能性辅料,如同工业生产中的 “隐形推手”,其环保指标不仅决定着终端产品的质量上限,更关乎企业能否通过严苛的环保法规认证。在全球 “双碳” 目标与 VOCs(挥发性…