TSB - AD 解读 — 迈向可靠、透明的 TSAD 任务

目录

一  文章动机

二  TSAD 领域内的两类缺陷

三  数据集的构建

四  实验结果及结论


项目宣传链接:TSB-AD

代码链接: TheDatumOrg/TSB-AD: TSB-AD: Towards A Reliable Time-Series Anomaly Detection Benchmark

原作者解读:NeurIPS 2024 | 时序异常检测基准 TSB-AD - 知乎 

TSB - AD 与其他TSAD基准的全面对比:

一  文章动机

1. 长期以来,由于使用含缺陷的基准数据集、存在偏见的评估方法、不一致的基准实践,TSAD 领域面临诸多困扰;

2. Wu & Keogh 发起对 TSAD 数据集含缺陷的讨论:triviality, anomaly density, mislabeling, and
run-to-failure bias(异常标注琐碎、异常密度、标签错误、运行失败偏差);

3. UCR 数据集虽近期收到较多推崇,但仍存在重大缺陷:① 它忽视了某些时序异常区域;② 它通过 “人为引入” 时序异常;

4.  “everyone wants to do the model work instead of the data work”, resulting in limited new efforts to produce a large-scale, high-quality dataset.(典中典的问题)

5. 存在偏见的评估方法(尤其指:“点调整” 后的指标):随机分数、噪音输入、“嘈杂” 输入会造成“进步错觉”:(*此处补充 SimAD 的示意图进行说明,不属于原文内容)

6. “模型预处理” 及 “模型评测方式” 的不一致,也会造成不合理的 TSAD 模型质量评估;

7. 指标推荐:VUS - PR、VUS - ROC 等;

二  TSAD 领域内的两类缺陷

① 基准数据集的缺陷:

(a) 漏标、误标:数据集标注者被许可访问并接触 “额外的、未批露的数据”,因此 “不显著” 的时序异常标记是合理的;然而数据集内存在 “相似” 时序被赋予 “不同” 标签,则不合理;TSB - AD 对其进行修正;

(b) 偏差现象:Yahoo 数据集通常在数据末端标注异常,使结果不合理地倾向将末端数据点预测为异常的算法;UCR 数据集仅标注最显著的异常现象,忽略对潜在异常的标注,此外,单变量时序不符合真实世界场景;

(c) 可行性、实用性:为 “分类” 任务设计的数据集被不恰当用于 “异常检测”,仅仅简单地将少数类重新分类为 “异常”;然而,“少数类” 的占比超出了 “异常” 的占比,不切实际的异常比率违反 “异常不应频繁发生” 的基本原则,与异常检测器的设计原则相悖;

② 评估指标的缺陷:

(a) AUC - ROC 不适配针对 “不平衡分类任务” 的模型评估,AUC - PR 更优;

(b) 基于点的一系列评估指标,对 “靠前或滞后(lag)” 检测到异常的行为过分敏感,惩罚力度过大,不够合理;

(c) 点调整(PA)假设检测到异常段内的任何点都被视为检测到该段内的所有点。然而,该指标倾向于支持 “有噪声” 的预测,随机分数也有机会预测真实异常序列中的点,性能与SOTA相当。随机生成的预测在点调整下甚至优于SOTA方法;异常平均长度增加时,点调整后的F分数接近1。

三  数据集的构建

四  实验结果及结论

1. 各类模型在 "TSB - AD - U"(单变量)及 "TSB - AD - M"(多变量)数据集上的整体实验结果:

2. 对 各类“模型评测指标”  的评估实验:

3. 部分有价值的结论: 

1. 统计方法表现出稳健的性能,而神经网络方法并未表现出通常被认为的优势。然而,神经网络和基础模型在检测点异常以及处理多变量场景时仍展现了较大的潜力;
2. 简单的架构(如:CNN 和 LSTM)通常优于更复杂的设计(如:高级 Transformer 架构);
3. 基础模型在检测基于点的异常方面表现出色,但在处理序列异常时表现较弱,主要原因在于其预测机制仅基于有限的回溯窗口逐步估算新的值。当面对长序列异常时,受限的时间上下文往往导致性能下降和噪声较大的得分。此外,使用有缺陷的点调整技术(偏向这些噪声得分)进一步加剧了问题,导致进展的假象;
4. 时间序列基础模型的表现展现出极大潜力:它们在微调后不仅能取得良好表现,还在零样本能力上优于大多数现有的统计方法和神经网络方法。然而,基础模型的主要担忧是由于预训练数据规模庞大,可能导致数据污染,因此在实际部署时需谨慎;
5. 将大型语言模型(LLM)应用于时间序列异常检测的努力结果并不令人满意,表明该领域仍存在显著的研究空白;
6. 在表现最佳的方法中,Sub-PCA 和 KShapeAD 表现出色,尽管它们多年来一直被忽视为基本基线,且未在先前的广泛评估研究中被发现。CNN 和 OmniAnomaly 在多变量场景中的强劲表现 — 与之前的基准结果相反,当时 KMeansAD 被认为更优 — 表明多变量时间序列中的复杂场景需要更高的建模能力,通常超出统计方法的范围。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/898177.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DNS主从服务器

1.1环境准备 作用系统IP主机名web 服务器redhat9.5192.168.33.8webDNS 主服务器redhat9.5192.168.33.18dns1DNS 从服务器redhat9.5192.168.33.28dns2客户端redhat9.5192.168.33.7client 1.2修改主机名和IP地址 web服务器 [rootweb-8 ~]# hostnamectl hostname web [rootweb-8…

遥感数据获取、处理、分析到模型搭建全流程学习!DeepSeek、Python、OpenCV驱动空天地遥感数据分析

【扔进数据,直接出结果】在科技飞速发展的时代,遥感数据的精准分析已经成为推动各行业智能决策的关键工具。从无人机监测农田到卫星数据支持气候研究,空天地遥感数据正以前所未有的方式为科研和商业带来深刻变革。然而,对于许多专…

第一个vue项目

项目目录 启动vue项目 npm run serve 1.vue.config.js文件 (CLI通过vue-cli-serve启动项目,解析配置配置文件vue-condig-js) // vue.config.js //引入path板块,这是Node.js的一个内置模块,用于处理文件路径,这里引用…

QT中读取QSetting文件

1.ini文件的格式 头文件 #include <QSettings> #include <QStringList> #include <QtCore> #include <QDebug>2.读文件 //ini文件的读取 void iniTest::readIniFile(QString filePath) {//1.打开ini文件QSettings m_iniFile(filePath, QSettings::I…

卷积神经网络 - 一维卷积、二维卷积

卷积(Convolution)&#xff0c;也叫褶积&#xff0c;是分析数学中一种重要的运算。在信号处理或图像处理中&#xff0c;经常使用一维或二维卷积&#xff0c;本博文我们来学习一维卷积和二维卷积。 理解一维卷积和二维卷积的核心在于把握维度对特征提取方式的影响。我们从数学定…

java学习总结(六)Spring IOC

一、Spring框架介绍 Spring优点&#xff1a; 1、方便解耦&#xff0c;简化开发,IOC控制反转 Spring 就是一个大工厂&#xff0c;可以将所有对象创建和依赖关系维护交给Spring 2、AOP 编程的支持 Spring 提供面向切编程&#xff0c;可以方便的实现对序进行权限拦截、运监控等…

大模型推理:LM Studio在Mac上部署Deepseek-R1模型

LM Studio LM Studio是一款支持离线大模型部署的推理服务框架&#xff0c;提供了易用的大模型部署web框架&#xff0c;支持Linux、Mac、Windows等平台&#xff0c;并提供了OpenAI兼容的SDK接口&#xff0c;主要使用LLama.cpp和MLX推理后端&#xff0c;在Mac上部署时选择MLX推理…

AI技术学习笔记系列004:GPU常识

显卡架构是GPU设计的核心&#xff0c;不同厂商有其独特的架构演进。以下是主要厂商的显卡架构概述&#xff1a; 一、NVIDIA Tesla&#xff08;2006-2010&#xff09; 代表产品&#xff1a;GeForce 8000系列&#xff08;G80&#xff09;。特点&#xff1a;首款统一着色架构&…

实验- 分片上传 VS 直接上传

分片上传和直接上传是两种常见的文件上传方式。分片上传将文件分成多个小块&#xff0c;每次上传一个小块&#xff0c;可以并行处理多个分片&#xff0c;适用于大文件上传&#xff0c;减少了单个请求的大小&#xff0c;能有效避免因网络波动或上传中断导致的失败&#xff0c;并…

Android视频渲染SurfaceView强制全屏与原始比例切换

1.创建UI添加强制全屏与播放按钮 2.SurfaceView控件设置全屏显示 3.全屏点击事件处理实现 4.播放点击事件处理 5.使用接口更新强制全屏与原始比例文字 强制全屏/原始比例 点击实现

数据结构——串、数组和广义表

串、数组和广义表 1. 串 1.1 串的定义 串(string)是由零个或多个字符组成的有限序列。一般记为 S a 1 a 2 . . . a n ( n ≥ 0 ) Sa_1a_2...a_n(n\geq0) Sa1​a2​...an​(n≥0) 其中&#xff0c;S是串名&#xff0c;单引号括起来的字符序列是串的值&#xff0c; a i a_i a…

无再暴露源站!群联AI云防护IP隐匿方案+防绕过实战

一、IP隐藏的核心原理 群联AI云防护通过三层架构实现源站IP深度隐藏&#xff1a; 流量入口层&#xff1a;用户访问域名解析至高防CNAME节点&#xff08;如ai-protect.example.com&#xff09;智能调度层&#xff1a;基于AI模型动态分配清洗节点&#xff0c;实时更新节点IP池回…

1.5.3 掌握Scala内建控制结构 - for循环

Scala的for循环功能强大&#xff0c;支持单重和嵌套循环。单重for循环语法为for (变量 <- 集合或数组 (条件)) {语句组}&#xff0c;可选筛选条件&#xff0c;循环变量依次取集合值。支持多种任务&#xff0c;如输出指定范围整数&#xff08;使用Range、to、until&#xff0…

【MySQL基础-9】深入理解MySQL中的聚合函数

在数据库操作中&#xff0c;聚合函数是一类非常重要的函数&#xff0c;它们用于对一组值执行计算并返回单个值。MySQL提供了多种聚合函数&#xff0c;如COUNT、SUM、AVG、MIN和MAX等。这些函数在数据分析和报表生成中扮演着关键角色。本文将深入探讨这些聚合函数的使用方法、注…

windows版本的时序数据库TDengine安装以及可视化工具

了解时序数据库TDengine&#xff0c;可以点击官方文档进行详细查阅 安装步骤 首先找到自己需要下载的版本&#xff0c;这边我暂时只写windows版本的安装 首先我们需要点开官网&#xff0c;找到发布历史&#xff0c;目前TDengine的windows版本只更新到3.0.7.1&#xff0c;我们…

Web测试

7、Web安全测试概述 黑客技术的发展历程 黑客基本涵义是指一个拥有熟练电脑技术的人&#xff0c;但大部分的媒体习惯将“黑客”指作电脑侵入者。 黑客技术的发展 在早期&#xff0c;黑客攻击的目标以系统软件居多。早期互联网Web并非主流应用&#xff0c;而且防火墙技术还没有…

华为OD机试 - 最长的完全交替连续方波信号(Java 2023 B卷 200分)

题目描述 给定一串方波信号,要求找出其中最长的完全连续交替方波信号并输出。如果有多个相同长度的交替方波信号,输出任意一个即可。方波信号的高位用1标识,低位用0标识。 说明: 一个完整的信号一定以0开始并以0结尾,即010是一个完整的信号,但101,1010,0101不是。输入的…

游戏引擎学习第163天

我们可以在资源处理器中使用库 因为我们的资源处理器并不是游戏的一部分&#xff0c;所以它可以使用库。我说过我不介意让它使用库&#xff0c;而我提到这个的原因是&#xff0c;今天我们确实有一个选择——可以使用库。 生成字体位图的两种方式&#xff1a;求助于 Windows 或…

7、什么是死锁,如何避免死锁?【高频】

&#xff08;1&#xff09;什么是死锁&#xff1a; 死锁 是指在两个或多个进程的执行时&#xff0c;每个进程都持有资源 并 等待其他进程 释放 它所需的资源&#xff0c;如果此时所有的进程一直占有资源而不释放&#xff0c;就会陷入互相等待的一种僵局状态。 死锁只有同时满足…

Compose 实践与探索十四 —— 自定义布局

自定义布局在 Compose 中相对于原生的需求已经小了很多&#xff0c;先讲二者在本质上的逻辑&#xff0c;再说它们的使用场景&#xff0c;两相对比就知道为什么 Compose 中的自定义布局的需求较小了。 原生是在 xml 布局文件不太方便或者无法满足需求时才会在代码中通过自定义 …