多元时间序列预测的范式革命:从数据异质性到基准重构

本推文介绍了一篇来自中国科学院计算技术研究所等机构的论文《Exploring Progress in Multivariate Time Series Forecasting: Comprehensive Benchmarking and Heterogeneity Analysis》,发表在《IEEE Transactions on Intelligent Transportation Systems》。论文针对多变量时间序列(MTS)预测中实验结果不一致、技术方向选择困难等问题,提出了首个专门为MTS预测设计的基准框架BasicTS+,通过统一训练流程和评估标准,实现了45种模型在20个数据集上的公平对比。

研究首次揭示了MTS数据集的异质性特征,根据时间序列的稳定性和空间依赖程度将数据集分为三大类,并发现模型性能与数据特征密切相关:例如Transformer模型在具有稳定周期模式的数据集上表现优异,而简单线性模型在分布漂移或无明确模式的数据中更具优势。实验结果表明,现有模型的有效性高度依赖数据类型,盲目套用结论可能导致误判。该研究不仅为MTS预测提供了可靠的评估工具,还为模型选择和数据集设计提供了理论依据,为复杂系统如交通、能源领域的时间序列分析奠定了方法论基础。

论文链接https://ieeexplore.ieee.org/abstract/document/10726722

代码与数据集https://github.com/GestaltCogTeam/BasicTS

一、 领域困境:实验结果为何"打架"?

在交通、能源等复杂系统的智能决策中,多元时间序列(MTS)预测扮演着核心角色。然而,当前研究存在两大痛点:

(1)结论矛盾:同一模型在不同研究中表现差异显著(如DCRNN在PEMS04的MAE波动达33%)

(2)方法困惑:Transformer与线性模型的优劣之争持续数年,STGNN的必要性饱受质疑

中国科学院计算技术研究所团队在《IEEE Transactions on Knowledge and Data Engineering》发表的最新研究,首次系统性揭示了这些矛盾背后的根本原因——数据异质性,并构建了首个公平可比的基准框架BasicTS+。

二、 核心突破:BasicTS+基准框架

2.1 BasicTS+框架及基本流程

1展示了BasicTS+的框架,其中主要包括BasicTS+的核心组件和用户配置文件两部分。

1 BasicTS+的框架

BasicTS+框架的基本流程如下:

(1)数据预处理:强制Z-score归一化,自动添加时间戳、星期几等10+外部特征

(2)训练策略:采用掩码MAE失函数,整合课程学习与梯度裁剪技术

(3)评估标准:提供MAE/RMSE/MAPE/WAPE8维度指标,支持归一化与反归一化双重验证

通过标准化数据加载、训练运行与评估流程,BasicTS+实现了45种模型在20个数据集上的公平对比。实验显示,统一标准使模型性能平均提升25%,消除了因实验设置差异导致的误判。

2.2 数据异质性分类体系

研究首次提出MTS数据的双维度分类标准:

(1)图2展示了以时间特征维度MTS数据的分类标准,为稳定周期模式、分布漂移模式和无明确模式,分别对应PEMS03/04/08、ETTh2/ETTm2和ExchangeRate典型数据集。

2 多个MTS数据集中的不同时间模式

(2)图3展示了以空间特征维度MTS数据的分类标准,为高不可区分性、低不可区分性,分别对应METR-LA/BAY、ETTm1/ETTm2典型数据集。

不同数据集中的空间不可区分性

三、颠覆性发现:数据决定模型命运

3.1 时间维度的"模型适配法则"

1)稳定周期数据:表1中可以看出,Transformer架构(如FEDformer)通过捕捉多尺度周期性,在PEMS04的MAE达26.89,较线性模型低39.49%

2)分布漂移数据:表1中可以看出,线性模型(DLinear)因抗过拟合能力,在ETTh2的MAE仅3.13,优于Transformer的3.27

3)无明确模式数据:所有模型性能相近,凸显预测本质困难

高级模型和基线模型在异构MTS数据集中的性能

3.2 空间维度的"建模边界"

(1)高不可区分性数据:表2中可以看出,STID通过空间身份嵌入,在METR-LA的MAE达3.12,较移除空间模块的STID*降低12.85%

(2)低不可区分性数据:表2中可以看出,保留GCN的AGCRN在ETTm1的MAE反而比AGCRN*高21.16%

2 STIDAGCRN及其变体在具有不同空间不可区分性的数据集上的性能

表2呈现了STID、AGCRN及其变体在不同空间不可区分性数据集上的性能差异:在空间不可区分性高的LA、BAY数据集中,含空间依赖模块的STID、AGCRN表现更优;而在空间不可区分性低的ER、ETTm1数据集中,去掉空间模块的变体(STID*、AGCRN*)性能更突出,如ER数据集MAPE指标中,变体较原模型下降25.31%。Gap数据进一步表明,空间依赖模块在低空间不可区分性数据集中会导致性能损失,验证了研究中“模型空间建模需适配数据空间异质性”的结论——高空间不可区分性数据适合依赖空间模块的模型,低空间不可区分性数据无需复杂空间建模,凸显模型与数据空间特征适配的关键作用。

四、实践指南:模型选择路线图

图4 多元时间序列(MTS模型选择路线图

(1)时间维度判断:首先分析数据是否具有稳定周期性。若有,直接选用Transformer/STGNN模型;

(2)进一步细分:如果数据无稳定周期,接着判断是否属于分布漂移型。若是,适配线性模型+动态调整方案;

(3)最终判定:如果数据既无稳定周期,也非分布漂移(即无明确模式),则采用简单模型+不确定性估计的组合。

整个流程环环相扣,基于数据时间特征层层筛选,确保模型与数据特性精准匹配。

五、未来展望:从"模型竞赛"到"数据理解"

该研究带来三大启示:

(1)数据特征优先:复杂模型的有效性高度依赖数据模式,盲目追求架构创新可能适得其反

(2)基准重构意义:BasicTS+为领域提供了可复现的评估标准,推动研究从"黑箱竞赛"转向科学验证

(3)应用转化路径:在智慧交通、能源调度等场景,应先进行数据特征诊断,再匹配模型架构

这项研究不仅为多元时间序列预测建立了新的方法论框架,更深刻揭示了AI模型与数据本质的相互作用规律。当我们在赞叹Transformer的强大时,或许更应关注数据背后跳动的"脉搏"——毕竟,真正的智能,始于对数据的敬畏与理解。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/73542.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

印章/公章识别:PaddleX下的“Seal-Recognition”模型

最近做项目需要对印章进行识别,并提取其中的印章文字,又不希望这个模型太大,还要方便部署,于是乎这个模型是个不错的选择。 一、模型简介 “Seal-Recognition”模型是PaddleX旗下的一款模型(PaddleX 是基于飞桨框架构…

An effective algorithm for peptide de novo sequencing from MS/MS spectra

1. 研究背景 数据库搜索方法 需要已知的蛋白数据库,但对于未知蛋白质,无法适用。de novo 测序方法 直接从 MS/MS 数据推断氨基酸序列,非常重要。 2. 现有方法的问题 暴力搜索方法:枚举所有可能的肽序列并与 MS/MS 数据比对&…

算法专题一:双指针

1.移动零 题目链接:283. 移动零 - 力扣(LeetCode) 我们可以定义一个dest,一个cur,dest表示数组中不为零的数的最后一位,cur用来遍历数组 class Solution {public void moveZeroes(int[] nums) {for(int cur…

【大模型实战】利用ms-swift微调框架对QwQ-32B推理模型进行微调

1. 背景介绍 之前我们在《大模型训练/微调的一些经验分享》、《利用DeepSeek-R1数据微调蒸馏ChatGLM32B让大模型具备思考能力》中做了相关模型微调的介绍。目前在基座大模型能力还没有达到足够牛的情况下,大模型微调在商业化、垂直领域应用依然是不可或缺&#xff0…

【Unity3D】Addressables使用流程

Package Manager - 搜索 Addressables 安装 Window -> Asset Management -> Addressables 打开窗口 New -> 新建Packed Assets 资源组 默认资源组Default xxx (Default) 将资源,如预制体直接拖拽进资源组 Build -> New Build -> Default Buil…

k8s serviceaccount在集群内指定apiserver时验证错误的问题

在主机上,找到TOKEN,可以直接指定apiserver使用 rootubuntu-server:/home# kubectl auth can-i --list --server https://192.168.85.198:6443 --token"eyJhbGciOiJSUzI1NiIsImtpZCI6IlFlMHQ3TzhpcGw1SnRqbkYtOC1NUWlWNUpWdGo5SGRXeTBvZU9ib25iZD…

Linux驱动开发-①pinctrl 和 gpio 子系统②并发和竞争③内核定时器

Linux驱动开发-①pinctrl 和 gpio 子系统②并发和竞争③内核定时器 一,pinctrl 和 gpio 子系统1.pinctrl子系统2.GPIO子系统 二,并发和竞争1.原子操作2.自旋锁3.信号量4.互斥体 三,按键实验四,内核定时器1.关于定时器的有关概念1.…

数据库的高阶知识

目录 一、case when二、几种常见的嵌套查询2.1 比较运算符2.2 ANY/ALL 关键词2.3 in 关键词2.4 EXISTS关键词2.5 in和exists的异同点 三、开窗函数 数据库的基本知识 数据库的高阶知识 一、case when 在实际工作中,经常会涉及以下两类问题: 数据的映射…

【Kubernetes】Service 的类型有哪些?ClusterIP、NodePort 和 LoadBalancer 的区别?

在 Kubernetes 中,Service 是一种抽象的方式,用于将一组 Pod 进行连接并暴露给外部或集群内部访问。它的主要目的是通过提供稳定的 IP 地址和端口来允许其他服务或客户端与一组 Pod 进行通信。 Service 类型 Kubernetes 中 Service 有四种主要类型&…

MapReduce处理数据流程

(一)Shuffle MapReduce中的Shuffle过程指的是在Map方法执行后、Reduce方法执行前对数据进行分区排序的阶段 (二)处理流程 1. 首先MapReduce会将处理的数据集划分成多个split,split划分是逻辑上进行划分,…

OrioleDB: 新一代PostgreSQL存储引擎

PostgreSQL 12 引入了可插拔式的表存储方法接口,允许为不同的表选择不同的存储机制,例如用于 OLTP 操作的堆表(HEAP、默认)、用于 OLAP 操作的列式表(Citus),以及用于超快速搜索处理的内存表。 …

电脑自动关机故障维修案例分享

电脑基本配置: C P U: AMD A10 9700 内存:8G 硬盘:金邦512G固态硬盘 主板:华硕 A320M-F 显卡:集成(核心显卡) 操作系统:Win10专业版 故障描述: 使用一段时间会黑屏…

JVM垃圾收集器相关面试题(1)

垃圾收集与内存管理摘要 一.核心垃圾收集算法对比 算法原理优点缺点适用场景标记-清除两次遍历(标记存活对象→清除未标记对象)实现简单内存碎片化、双遍历效率低老年代(结合整理)标记-复制内存对半分,存活对象复制到…

栈(LIFO)算法题

1.删除字符串中所有相邻的重复字符 注意,我们需要重复处理,而不是处理一次相邻的相同元素就结束了。对示例来说,如果只进行一次处理,结果为aaca,但是处理之后又出现了相邻的重复元素,我们还得继续处理&…

conda的基本使用及pycharm里设置conda环境

创建conda环境 conda create --name your_env_name python3.8 把your_env_name换成实际的conda环境名称,python后边的根据自己的需要,选择python的版本。 激活conda环境 conda activate your_env_name 安装相关的包、库 conda install package_name …

Python基于深度学习的多模态人脸情绪识别研究与实现

一、系统架构设计 A[数据采集] --> B[预处理模块] B --> C[特征提取] C --> D[多模态融合] D --> E[情绪分类] E --> F[系统部署] F --> G[用户界面] 二、数据准备与处理 1. 数据收集 - 视频数据:FER2013(静态图像&#xff0…

synchronized与 Java内置锁(未写完)

文章目录 一、 synchronized 关键字二、Java对象结构1. 对象头2. 对象体3. 对齐字节4. 对象头中的字段长度5. Mark Word 的结构信息6. 使用 JOL 工具查看对象的布局 三、Java 内置锁机制3.1 内置锁的演进过程1. 无锁状态2. 偏向锁状态3. 轻量级锁状态4. 重量级锁状态 一、 sync…

LLM(3): Transformer 架构

Transformer 架构是当前大语言模型的主力架构和基础技术,本文以通俗易懂的方式,对此作简要介绍。 1.4 介绍 Transformer 架构 大多数现代的大规模语言模型(LLMs)依赖于 Transformer 架构,这是一种在 2017 年的论文《…

11.【.NET 8 实战--孢子记账--从单体到微服务--转向微服务】--微服务基础工具与技术--Ocelot 网关--整合日志

网关作为微服务架构的入口,承载着各服务间的请求转发与安全校验,其日志信息尤为关键。通过整合网关日志,可以将分散在不同系统中的访问记录、错误提示和异常信息集中管理,为问题排查提供全景视角。在排查故障时,统一日…

88.HarmonyOS NEXT 性能监控与调试指南:构建高性能应用

温馨提示:本篇博客的详细代码已发布到 git : https://gitcode.com/nutpi/HarmonyosNext 可以下载运行哦! HarmonyOS NEXT 性能监控与调试指南:构建高性能应用 文章目录 HarmonyOS NEXT 性能监控与调试指南:构建高性能应用1. 性能监…