文献阅读:Class-incremental Learning for Time Series:Benchmark and Evaluation

摘要

现实世界的环境本质上是不稳定的,随着时间的推移经常引入新的类别。 这在时间序列分类中尤其常见,例如医疗保健中新疾病分类的出现或人类活动识别中添加新活动。 在这种情况下,需要一个学习系统来有效地吸收新的类,同时避免旧类的灾难性遗忘,从而产生类增量学习(CIL)问题。 然而,尽管图像和语言领域取得了令人鼓舞的进展,但时间序列数据的 CIL 的研究仍然相对不足。 现有研究存在实验设计不一致的问题,需要对各种数据集的方法进行全面评估和基准测试。 为此,我们首先概述时间序列类增量学习(TSCIL)问题,强调其独特的挑战,并涵盖先进的方法。 此外,基于标准化设置,我们开发了统一的实验框架,支持新算法的快速开发、新数据集的轻松集成以及评估过程的标准化。 使用该框架,我们对标准场景和隐私敏感场景中的各种通用和特定于时间序列的 CIL 方法进行了全面评估。 我们广泛的实验不仅提供了支持未来研究的标准基线,而且还揭示了各种设计因素(例如标准化层或内存预算阈值)的影响。 代码可在 https://github.com/zqiao11/TSCIL获取。

介绍

时间序列(TS)数据在声学、医疗保健和制造等各个领域发挥着关键作用[55]。 用于时间序列分类的典型深度学习方法[29]是在静态离线数据集上进行训练的,这些数据集是在训练之前收集的,并且假设数据是独立且同分布(i.i.d.)的。 然而,现实世界的应用程序经常挑战这种独立同分布。 假设,因为实际系统通常在具有非平稳数据流的动态环境中运行,其中底层数据分布不断变化。 例如,用于人类活动识别或手势识别的 TS 分类模型应该能够适应新引入的类别 [11, 47]。 在这种情况下,开发自适应学习器的挑战不仅在于从传入数据中无缝吸收新概念,还在于同时保留和积累所有遇到的类别的知识。 这项工作的主要挑战源于众所周知的稳定性-可塑性困境 [23],其中模型必须足够稳定以记住其过去的知识,同时具有可塑性以容纳新信息。 然而,目前的研究结果[34, 43]表明神经网络的可塑性太强,因为它们无法在学习新知识的同时保留旧知识,这被称为灾难性遗忘现象[50]。 因此,开发有效的方法来实现促进学习新技能和减轻灾难性遗忘之间的良好权衡在持续学习(CL)的发展中发挥了核心作用。 我们付出了巨大的努力来解释学习(CIL)[57, 73] 成为最突出和最具挑战性的一项。 然而,大多数此类研究仅探索图像[49]或语言[33]应用。 另一方面,时间序列尽管具有普遍性和连续性,但仍然受到社区的研究。 现有研究在实验设置的各个方面都存在不一致的问题,包括数据集[21, 35]、标准化[11, 54]和学习协议[47, 67]等。

图1:动态任务序列上的时间序列分类-增量学习(TSCIL)过程示意图。

每个任务都引入了新的类(c1到c6),由清晰的任务边界分隔。该模型在任务上接受顺序训练。在对每项任务进行训练后,该模型需要识别到目前为止遇到的所有类,而不会出现灾难性的遗忘。对先前学习的参数进行调整,以适应下一任务的学习。

为了弥补这一差距,本文是一项开创性的工作,专门关注时间序列数据的类增量学习(TSCIL)。 我们首先提供 TSCIL 的概述,包括问题定义、具体挑战和相关工作。 我们重点研究 TS 数据的独特特征,例如数据隐私和类内变化及其对 CIL 的影响。 关键贡献是基准的开发和开源,以促进跨各种现实数据集的通用和特定于 TS 的 CIL 方法的标准化评估。 该框架为研究社区提供了有用的资源,提供了一个适应性强的代码库,可以轻松集成新的数据集、算法和定制的学习设置,从而使研究人员能够进一步开发 TSCIL 领域。 我们的实验从标准学术设置开始,基于正则化和经验回放评估通用和 TS 特定的 CIL 方法 [16, 72]。 我们进一步研究了不同因素对 CIL 性能的影响,包括标准化、内存预算和分类器类型。 除了标准设置之外,我们还考虑了两个与 TS 模态特别相关的特定应用场景。 首先,我们研究隐私敏感环境,其中 TS 数据与个人用户紧密相关,并且不允许存储以前任务的历史样本。 因此,我们探索生成重放策略[64]并研究其在这种具有挑战性的环境中的表现。 其次,我们考虑类内差异对 TSCIL 的影响。

在大多数数据集中,时间序列是从不同的主题或来源收集的,每个主题或来源都表现出独特的输入域。 因此,我们研究如何整合这些主观信息来进一步改善 TSCIL 结果。 总之,我们的贡献有三个:(1)我们提出了 TSIL 的系统概述,包括问题定义、挑战和现有方法。 (2)我们引入了统一的评估框架,包括公共数据集、标准协议和一系列方法,以促进该领域的进一步研究。 (3) 我们对标准学术设置和特定应用场景中最先进的 CIL 方法进行了全面比较,揭示了时间序列数据背景下现有方法的前景和局限性。

问题定义

类增量学习 (CIL) 与时间序列类增量学习 (TSCIL) 问题定义

1. 基础设置与任务定义

类增量学习(Class-Incremental Learning, CIL)涉及代理从动态数据流中不断学习新类。遵循标准学术设置 [34, 69, 70],CIL 将数据流表示为一系列任务,其中任务按不同步骤顺序出现。

步骤的任务定义为,其特征包括:

  • 标签空间

  • 训练数据,其中是样本数。

我们假设每个任务具有相同数量的不相交类,即当时,。我们专注于这种具有非重叠类的设置,因为旧类的重新出现会减少保留过去知识的挑战 [85]。

2. 模型训练与参数优化

给定任务序列,模型以增量方式针对所有任务进行训练。正式地:

  • 在任务中,我们用表示感兴趣的模型,它由参数化。

  • 学习任务后的优化参数定义为

  • 在任务中,具有参数的模型适应新任务,并且仅使用进行训练,而无法访问过去或未来的训练数据集。

注意:可以选择使用具有固定预算的内存缓冲区,它存储历史样本的集合以供将来重放(详细信息请参见附录 A.1)。

3. 学习目标

学习目标是使模型能够有效地学习新任务,同时保留先前任务的知识。用表示分类损失,学习整个任务序列的最终学习目标表述为公式 (1):

4. 时间序列类增量学习 (TSCIL)

我们采用此标准 CIL 设置处理时间序列数据,从而定义时间序列类增量学习(TSCIL)问题。在此设置中(见图 1),每个样本都是一个时间序列,其中:

  • 表示通道/变量的数量;

  • 表示序列的长度。

TSCIL 不仅继承了标准 CIL 的限制,而且也有其自身的挑战。

归一化:在基于图像的 CIL 中,通常使用 ImageNet [60] 计算的统计数据对图像进行归一化,将像素密度缩放到 [0, 1] 的范围。 然而,由于缺乏包含许多模式的大规模数据集,此类方法并不直接适用于时间序列。鉴于时间序列数据中的数据归一化经常被忽视[11,36,82],我们在 4.2 节中提出了这个问题的实用解决方案。

• 数据隐私:涉及TS 数据的应用程序通常与保护数据隐私的需要相关联[20]。 这就需要采取一些方法来避免保留原始用户数据以保护隐私。 使用合成样本已被证明是保护用户隐私的可行解决方案 [64, 81],第 5.2 节对此进行了特别评估。

• 类内变化:时间序列通常表现出比图像更大的类内变化[67]。 这主要是因为现实世界的时间序列是从各种来源或主题收集的,每个来源或主题都有自己的特征 [5, 61]。 这种现象导致持续学习中的复杂交互,不仅随着时间的推移引入新的类,而且一个类可能组成多种模式。 我们在第 5.3 节中研究了这个问题。

在完成每个任务后,模型将在所有先前学习任务的测试集上进行评估。模型需要在未提供任务标识符的情况下,对来自的所有类别进行分类。模型的性能将使用第 4.4 节中介绍的指标进行评估。

3 相关工作

在现有的 TSCIL 文献中,一个普遍的主题是已建立的通用 CIL 方法在时间序列场景中的应用。 文献[11]提出了一种基于EWC[34]和iCaRL[57]的在线用户授权框架,根据生物医学TS信号不断识别新用户。 [36]将经典的基于正则化和基于重放的方法应用于来自移动和嵌入式传感应用的时间序列。 [21]使用循环神经网络(RNN)在简单的 TS 数据集上评估各种通用的 CIL 方法,例如 Stroke-MNIST [24] 和 AudioSet [22]。 这些工作的结果展示了使用通用 CIL 方法来减轻 TS 数据灾难性遗忘的有效性。 除了适应图像领域的现有方法之外,还提出了针对时态数据的创新 CIL 算法。 [19]和[82]专注于RNN架构并提出了特定的基于正则化的CIL算法。 DT2W [54]提出了一种基于soft-DTW [15]的新型知识蒸馏(KD)[27]策略,以缓解稳定性-可塑性困境。 许多方法都是围绕经验重放 (ER) 构建的 [10, 59]。 CLOPS[35]是一种基于ER的心律失常诊断方法,包括基于重要性的存储策略和基于不确定性的内存缓冲区管理检索策略。 为了实现高效的音频分类,[37] 引入了 iCaRL 的快速变体,用 KNN 代替群体选择,并利用量化来压缩内存样本。 MAPIC [67] 使用冻结特征提取器,将原型增强模块与基于距离的分类器结合起来,用于医疗数据上的小样本 CIL。 在生成重放领域,[75]使用高斯混合模型(GMM)不断训练自动编码器,以生成用于增量声音分类的伪音频频谱图数据。 [25]为每个任务采用单独的独立生成器,以适应不同任务中的可变输入维度。 [62] 针对不同呼吸音类别训练单独的 WaveGAN [18] 模型,并对合成样本进行隐私评估。 还探索了利用特征重放或原型的方法。 使用固定特征提取器,[41]和[42]用原型更新分类器,以实现少镜头类增量音频分类。 最后,还研究了基于架构的技术。 受 ExpertGate [3] 的启发,GIM [14] 采用级联模型结构,为每个新任务训练特定于任务的 RNN 模块。 与 RNN 一起,针对每个任务训练门控自动编码器,以在预测期间选择相应的模块。 此外,[66]提出了一个针对 RNN 的统一 GEM [46] 和 Net2Net [12] 的可扩展框架。 尽管该领域做出了努力,但仍缺乏对各种时间序列数据集的全面评估和比较。 此外,TSCIL 在许多关键方面都存在不一致的问题,包括数据集、学习协议、评估方案和主干网等。与数据标准化和超参数调整相关的一些有问题的做法甚至违反了 CIL 的基本原则。 为了解决这些问题,我们开发了一个标准的 TSIL 框架,以系统地、公平地评估 TS 数据上的不同 CIL 方法。

4 开发的评估框架

4.1 基准数据集 我们的 TSCIL 基准是利用开源的真实时间序列数据集建立的。 基于这些,我们的工具包提供了一种清晰的方式来自定义 CIL 设置,包括每个任务的类数,或每个类的训练样本量。 尽管如此,我们还是遵循 CIL 研究中的常见设置来报告本文中平衡训练设置的结果,其中每个类别的训练样本量大致相等。 我们强调这一假设的重要性有两个原因。 首先,它与视觉领域传统 CIL 研究中的大多数标准基准保持一致 [70],并促进使用标准评估指标,如果类别不平衡,这些指标可能会产生偏差。 其次,训练样本的多少直接影响每个分类的学习难度。 这种影响会影响 CIL 算法本身之外的性能,因此超出了本文的范围。 基于这样的考虑,数据集选自两个与 TS 相关的应用:人类活动识别(HAR)和手势识别。 一般来说,一组受试者/志愿者被要求在固定的时间内执行各种活动或手势。 这样的数据集适合 CIL,因为有足够的平衡类用于任务分割。 一些工作利用 HAR 数据集进行 CIL [31,32,61],但它们采用预处理向量作为输入样本。 相反,我们直接使用原始时间序列作为输入,专门关注 TS 模态。 在我们的配置中,每个数据集的 TS 样本表现出一致的形状,即序列长度和变量数量保持相同。 表 1 显示了所使用的数据集的概述。

1)UCI-HAR [30]包含执行 6 种不同日常活动时智能手机惯性传感器的时间序列。 数据以 50Hz 频率收集,来自 30 名不同年龄段的志愿者。 序列直接用作输入,由 9 个通道组成,时间跨度为 128 个时间步长。

表 1:基准数据集概述。 最后一列表示实验流中的任务数。

2) UWave [44] 包括从 8 个受试者收集的 4000 多个样本,同时生成 8 个简单的手势模式。 我们利用来自加速度计三个轴的记录,以便每个输入样本都是具有 315 个时间步长的 3 维时间序列。 3)DSA[4]收集了8名志愿者进行的19项日常体育活动的运动传感器片段。 每个片段作为样本,通过 45 个不同的通道以 125 个时间步长进行记录。 为了使类别均分,我们选择利用该数据集中的 18 个类别进行实验。

4) GRABMyo [53] 是一个用于手势识别的大规模表面肌电图(sEMG)数据库。 它捕获 43 名参与者在三个独立会话中执行 16 个不同手势期间的信号。 所有录音持续时间为 5 秒,从 28 个通道收集,并以 2048 Hz 采样。 我们选择所有受试者的一个会话数据进行实验。 我们首先将信号下采样到 256 Hz,然后应用非重叠滑动窗口操作将信号切割成不同的样本。 每个长度为 0.5 秒的窗口包含 128 个时间步长,用作输入样本。 我们聚合每个受试者的所有窗口,并以 3:1 的比例执行训练-测试分割,确保训练和测试数据都来自所有受试者。 这避免了在训练数据和测试数据之间引入由受试者引起的分布变化,适合我们对 CIL 的关注。 表 3 中的离线结果表明我们处理的样本包含足够的分类信息。

5) WISDM [78] 是一个基于传感器的 HAR 数据集,包含 18 项活动并涉及 51 个主题。 按照[82],我们利用电话加速器模式,并通过应用窗口大小为 200 的非重叠滑动窗口来提取样本。每个样本包含频率为 20 Hz 的 10 秒时间序列。 与 GrabMyo 的做法类似,数据集以 3:1 的比例分为训练集和测试集,使得两个集都包含来自所有受试者的数据。

4.2 学习协议

4.2.1 任务分割

遵循标准 CIL 定义,我们需要将数据集拆分为 𝑇 任务,确保每个任务包含互斥的类。 与[57]中的过程类似,我们在拆分之前打乱类顺序。 这使我们能够根据类顺序评估 CIL 方法的稳健性。 之后,我们将所有班级平均分配到每个任务中。 与 Split-MNIST 和 Split-CIFAR10 [69] 类似,我们为这项工作中的每个任务分配 2 个不同的类。

4.2.2 数据标准化。

输入数据的标准化对于模型的训练至关重要。 许多 TSCIL 研究在任务分割之前应用 Z 分数归一化,并使用在整个数据集上计算的统计数据进行归一化 [11,36,82]。 这种做法违反了 CL 的基本原则,因为在训练之前无法访问完整的数据集。 为了解决这个问题,我们通过在模型第一层之前插入输入标准化层来应用实例标准化。 它可以是 LayerNorm (LN) [6] 或 InstanceNorm (IN) [68],而不包含可学习的仿射变换或偏差。 这可确保输入在特定维度上标准化为均值 0 和标准差 1。 输入归一化层的选择可以根据验证任务的性能来决定。 除了没有应用归一化的 WISDM 之外,我们对 UWave 应用 IN,而对其余数据集采用 LN。

4.2.3 超参数调优

超参数的选择在 CL 领域是一个具有挑战性的问题,通常遵循两个协议。 第一个 [34, 64] 涉及将每个任务划分为训练集、验证集和测试集,然后执行网格搜索。 根据所有任务的验证集性能选择最佳参数。 然而,这种方法需要访问整个任务流,并且需要对先前验证数据和未来任务之间的相关性进行强有力的假设。 另一个协议 [9] 将任务分为用于交叉验证和超参数调整的“验证”流,以及用于训练和评估的“实验”流。 我们对 UCI-HAR 和 UWave 使用第一个协议(分别只有 3 个和 4 个任务),对具有更多任务的数据集使用第二个协议,将验证流任务计数设置为 3。我们强调,这两个协议都是常见的标准实践,每个协议都有自己的优点和局限性。 我们在工具包中提供了这两个选项,允许用户根据自己的需求进行选择。

4.3选择方法

我们首先选取了9种具有代表性的基于正则化的方法和经验回放技术进行比较。这些方法包括在图像域中提出的一般方法以及针对TS数据的特定算法。在基于正则化的方法中,我们选择了LWF[43]、MAS[2]和DT2W[54]。对于经验回放,包括ER[59]、DER[7]、羊群[57]、ASER[63]、CLOPS[35]和FastICARL[37]。为了研究存在数据隐私问题的场景,我们进一步采用了基于生成-重放的方法:GR[]。这种方法避免了节省原始样本,其实验结果将在5.2节中讨论。最后,我们报告了两个简单的基线的结果:幼稚和离线。前者给出了性能的下限,因为它对在不使用任何CIL技术的情况下按顺序对任务建模。后者作为理想的上界,因为它与来自整个数据流的所有样本进行联合训练。表2列出了所选CIL方法的摘要。附录A.1提供了更多详细信息。

表2:已实现的CIL算法摘要。

图 2:使用 (a) BatchNorm 或 (b) LayerNorm 进行归一化时平均准确度 (A𝑖) 的演变。 利用内存缓冲区的方法用三角形标记。 由于 Offline 表示对整个任务序列进行联合训练,因此其结果显示为单个点而不是曲线。

4.4 评估指标

我们采用了 3 种用于 TSCIL 评估的标准指标。令表示在训练完任务后,在已学习任务() 的测试集上评估的准确率。

1. 平均准确率 (Average Accuracy)

学习任务后的平均准确率定义为

它是所有已学习任务测试集的准确率均值,反映了模型的整体性能。

2. 平均遗忘率 (Average Forgetting) [9]

学习任务后的平均遗忘率定义为

其中() 表示由于学习任务而导致在任务上性能下降的程度。该指标反映了模型在任务层面遗忘了多少已获得的知识。

3. 平均学习准确率 (Average Learning Accuracy) [58]

该指标定义为

该指标表明了使用 CIL 方法对学习新任务的整体影响,通过序列中所有任务的当前任务准确率的平均值来体现。

最终性能报告

为了反映最终性能,社区通常报告最终平均准确率和最终平均遗忘率,这些指标是在学习完最后一个任务后跨所有任务计算得出的。

4.5 模型架构

对于本文的实验,我们采用类似于[56]的 1D-CNN 主干作为特征提取器。 它由四个卷积块组成,每个块包含一个 1D 卷积层、一个 BatchNorm (BN) 层、一个 MaxPooling 层和一个 Dropout 层。 除非另有说明,我们在所有算法中都使用具有 softmax 激活的单头分类器。 我们专门研究了消融研究中不同类型分类器的影响。 对于使用内存缓冲区的方法,我们将缓冲区大小设置为实验任务流中训练大小的 5%。 此外,规范化层在 CIL 问题中也发挥着至关重要的作用。 尽管大多数文献将 BN 层纳入其模型中,但经验表明 BN 层在 CIL 场景中存在偏差问题 [52]。 我们通过比较使用 BN 和 LN 的结果,在 TSCIL 领域进一步研究这个问题。 对于 GR 的生成器,我们使用 TimeVAE [17],编码器和解码器分别设计有四层 Conv1D 和 ConvTranspose1d。

4.6 实现细节

所有实验均使用不同的类顺序和随机种子运行 5 次。 对于每次运行,我们都会按照上述协议调整其特定的最佳超参数。 与[70]类似,所有模型都使用 Adam 优化器对每个任务进行 100 个 epoch 的训练,学习率为 0.001,批量大小为 64。学习率调度程序被配置为用于调整的超参数。 为了减轻训练数据的过度拟合,在训练期间使用提前停止。 为了公平比较,我们选择不调整不同方法的架构相关参数。 相反,我们采用固定且一致的模型架构。 有关框架实施的更多详细信息,请参阅附录 A.2。 我们强调我们的框架是可扩展的。 用户可以按照我们代码页中的说明合并新的数据集、算法和自定义实验设置。

5 实验与讨论

5.1 基于正则化和基于 ER 的方法的评估

5.1.1 使用 BN 和 LN 的性能比较。 我们首先关注允许保存历史样本的基本场景。 如表 2 所列,我们评估了 3 种基于正则化的方法和 5 种基于经验回放的方法。 同时,我们还通过运行 2套 来研究归一化层的影响实验组。 一种使用带有 BN 层的默认 CNN 主干,另一种使用 LN 层替换模型中的 BN 层。 BN 的总体性能结果如表 3(a) 所示,LN 的总体性能结果如表 3(b) 所示。 我们还在图 2 中展示了跨任务的平均准确率 A𝑖 的演变。评估结果回答了以下问题。

表 3:使用 (a) BatchNorm 或 (b) LayerNorm 进行归一化时,基于正则化和基于 ER 的方法在我们的 5 个 TSCIL 基准上的评估指标。 报告第 4.4 节中引入的度量标准,即 A𝑇(↑)、F𝑇(↓) 和 A𝑐𝑢𝑟 (↑)。 对于每个指标,都会报告 5 次运行的平均值和置信区间。

问题1:正则化vsER在TSCIL中如何表现? 与图像领域的研究结果类似 [39, 48],基于 ER 的方法稳定优于基于正则化的方法,而无需在 TSIL 中保存样本。 正如预期的那样,在不使用任何 CIL 技术的情况下,Naive 不可避免地会导致灾难性的遗忘。 通过保存内存样本,所有基于 ER 的方法都有效地减少了跨数据集的遗忘。 令人惊讶的是,当使用 LN 进行归一化时,即使是具有 5% 内存预算的基本 ER 方法有时也能获得接近离线训练上限的结果。 相比之下,基于正则化的方法仅在任务较少的简单基准测试中显示出明显的优势,例如 UCI-HAR 和 UWave。 在这些数据集中,DT2W 始终优于 MAS,而 MAS 又提供了比 LwF 更好的结果。 然而,在更具挑战性的基准中,相同的正则化方法会几乎完全是失败的。具体地说,他们努力平衡稳定性和可塑性,导致显著的遗忘(LWF)或降低学习精度(MAS和DT2W)。

图 3:使用不同内存预算时最终平均准确度 (A𝑇) 的演变。 结果包含 4 个数据集上的 4 种基于 ER 的方法,利用 BatchNrom(顶行)或 LayerNorm(底行)进行标准化。

问题2:BN和LN的选择对TSCIL有何影响? 虽然 BN 和 LN 之间的选择对离线训练影响很小,但我们发现使用 LN 似乎可以显着提高大多数基于 ER 的方法的性能。 值得注意的是,切换到闪电网络的影响是如此深远,以至于它可能掩盖算法本身的选择。 在某些情况下,仅在同一算法内从 BN 过渡到 LN 就可以将性能提升到几乎与离线训练相当的水平。 [52]将这种现象归因于BN中运行统计的偏差,这是由于新样本和记忆样本的不平衡造成的,导致先前获得的知识丢失。 相比之下,采用实例标准化(例如 LN)可以有效地规避这个问题。 然而,我们强调BN的偏差的影响是双向的。 根据学习准确率A𝑐𝑢𝑟的变化,我们发现BN的偏差不仅降低了稳定性,而且阻碍了新知识的学习。 此外,与原始样本的重放相比,BN 的偏差对 Logits 的重放产生了更明显的影响,用 LN 替代 BN 后,DER 得到了显着的改进。 有趣的是,ASER 似乎是一个例外:它在 BN 上的性能比其他比较方法要好得多,但它并没有显示出使用 LN 带来的显着好处。 我们认为这是由于 ASER 的 MemoryRetrieval 机制所致,该机制选择一批平衡且具有代表性的内存样本来维持 BN 层中的无偏差统计数据。 在某种程度上,ASER 对 BN 的优越性强调了 MemoryRetrieval 在 ER 技术中的重要性。 与基于 ER 的方法相反,基于正则化的方法无法在 BN 和 LN 中表现出一致的模式。 总之,基于 ER 的方法始终受益于使用 LN 并取得了实质性改进,而基于正则化的方法需要根据数据集决定选择 BN 或 LN。 5.1.2 消融研究。 在本节中,我们研究内存预算和分类器类型对 TSIL 性能的影响。 我们首先在一系列内存预算中评估基于 ER 的方法,结果如图 3 所示。内存预算设置为整个训练数据集大小的 1%、5%、10%、20% 和 100%。 之后,我们比较了使用 3 种不同类型的分类器时 LwF、MAS、ER 的性能。 我们在图 4 中展示了结果。所有评估均使用 BN 和 LN 进行归一化。 结果回答了以下问题。

问题 3:内存预算如何影响基于 ER 的方法? 正如直观预期的那样,基于 ER 的方法通常会随着内存缓冲区大小的增加而表现出更高的性能。 然而,值得注意的是,超过一定的缓冲区大小,性能增益就会饱和。 这种趋势表现出使用 BN 和 LN 之间的差异。 一个令人惊讶的观察是在 100% 内存预算下,所有遇到的数据都被保存以供重播(与离线相同)。 当使用BN时,除了ASER之外的所有方法与离线训练相比都表现出明显的性能差距。 这表明 BN 对新任务的偏见并不是源于内存预算和新任务训练数据大小之间的不平衡。 相反,偏差是由 2 批次 ER 管道产生的(参见附录 A.1 中的算法 1)。 随着任务数量的增加,𝐵M中每个旧类样本的比例减少,导致每一步中新旧类样本分布不平衡。 相比之下,LN 上的结果显示所有配置的趋势一致,在接近离线的水平上饱和。 这些结果证明了标准 ER 协议中的潜在问题,并进一步强调了在 TSCIL 中使用 LN 进行重放的优势。

问题 4:不同的分类器类型如何影响 TSCIL? 已知传统的softmax分类器在没有排练数据的CIL场景中表现出偏差问题,即新类的权重大小大于旧类的权重大小[28]。这是因为最小化Softmax分类损失总是会降低旧类别的权值。处理此问题的一种简单方法是用Sigmoid替换Softmax,并用BCE[57,65]训练模型。使用这种基于BCE的分类器,我们观察到LWF的结果得到了持续的改善,并有显著的差距。然而,这种改善在MAS或ER中并不是始终如一的。另一个分类器是分裂余弦分类器[28],它对特征和类别权重进行归一化,并计算它们的余弦相似度。然而,使用这样的分类器并不能持续地提高性能,甚至可能会阻碍MAS。最后,NCM分类器只适用于利用记忆样本的方法,并且没有观察到显著的改进。我们假设的原因是记忆样本的排练减轻了单头分类器的偏差,导致不同分类器的性能相似。总之,分类器的选择取决于方法和数据集,而对于使用ER的方法则不那么关键。

图 4:不同类型分类器的消融研究。 前两个代表分别用 CE 和 BCE 训练的单头分类器。

5.2 隐私敏感场景中GR的评估

在本节中,我们考虑一个具有数据隐私问题的实际场景,限制原始历史样本的存储。 由于基于无样本正则化的方法表现出固有的局限性,我们通过使用 TimeVAE [17] 作为生成器来研究 GR。 在使用 BN 或 LN 的模型上进行实验,结果如表 4 所示。问题 5:GR 与 ER 在 TSCIL 中的表现如何? 在 UCI-HAR 和 UWave 等更简单的数据集中,GR 作为 ER 的替代方案表现出了显着的功效。 值得注意的是,它始终优于基于正则化的方法,并且还表现出与 ER 相当或更好的结果。 通过显示 UWave 的原始样本和生成样本,我们发现 GR 可以生成类似于原始数据中发现的某些模式的伪样本。 (见图 7)。 然而,GR 的有效性在 DSA 和 GRABMyo 等更复杂的数据集中受到限制,与 ER 相比表现出显着的性能差距。 我们将 GR 的局限性归因于两个原因。 首先,对于时间序列数据来说,在具有大量类或变量的数据集上训练熟练的生成器模型仍然具有挑战性,特别是当训练过程是增量时。 生成样本的多样性也受到限制(参见附录 B.1 中的图 6)。 其次,朴素的GR方法无法控制生成样本的类别,阻碍了旧类别的平衡排练。 相比之下,ER 的 i.i.d. 内存更新可以规避这些问题,从而导致显着的性能差异。 此外,与 ER 类似,GR 受益于使用 LN 而不是 BN,尤其是在 UCI-HAR 和 DSA 中。 这表明固有偏差会影响所有采用重放的 CIL 方法。 综上所述,虽然GR在更简单的数据集上表现出较强的竞争力,但在更复杂的环境中遇到了显着的挑战

5.3 分析受试者之间的类内差异

问题 6:类内差异如何影响 TSCIL? 时间序列数据通常从不同的主题或来源收集,每个主题或来源可能表现出不同的输入域。 例如,图 5 描述了在 DSA 的两个类上训练的 VAE 内的特征分布。 值得注意的是,每个类别在特征空间内形成八个簇,每个簇对应一个不同的主题。 尽管这种现象在 TSCIL 中经常被忽视,但我们发现不同科目之间的分布变化可能会在很大程度上影响学习成绩。 我们在附录 B.2 中进一步分析了这种受试者分布如何影响基于 ER 的方法。 为了进一步研究这一点,我们使用 DSA 数据集将原始 ER 基线与其两个变体进行比较。 原始的 ER 采用了 MemoryUpdate 的水库采样,理论上确保缓冲区中的内存样本与原始分布独立同分布。 然而,其基于随机选择的MemoryRetrieval策略可能无法确保每批重放样本都遵循主题分布。 我们的第一个变体修改了MemoryUpdate策略,只从部分受试者中选择样本,故意导致内存样本的受试者分布与实际分布存在偏差。 第二种变体保留了原始的 MemoryUpdate 策略,但改进了 MemoryRetrieval 策略,以确保内存样本在每个检索批次中都是主题平衡的。 评估指标如表 5 所示,其中前两种方法分别对应于来自两个和四个受试者的第一个变量采样。 “平衡”代表第二个平衡检索变体。

观察到的结果强调了维持 TSCIL 中受试者分布的重要性。 具体来说,从部分受试者中取样表明重放效果减弱。 相比之下,使用受试者平衡的记忆样本可以显着增强排练过程。 这一发现证实了将类内差异纳入 CIL 可以改善结果的观点。 另一方面,忽略这一方面会导致次优结果。 这些见解指出了 TSCIL 中的一个新挑战,特别是对于依赖 ER 和 GR 的方法:需要考虑由不同输入域引起的类内分布变化。

6 未来方向

本节概述了 TSCIL 研究未来潜在的方向。

(1)复杂时间序列的生成重播:在复杂数据集中使用GR是进一步探索的挑战。 我们列出了几种潜在的解决方案。 第一个是将原始时间序列转换为时频表示(例如频谱图),并使用图像生成模型来改进 TS 合成 [1,26,76]。

第二个是应用因果关系学习,旨在揭示潜在的数据生成过程。 将其与持续学习相结合成为一种有前途的方法,可以增强模型的可解释性和对分布变化的适应性[13],特别是当将其应用于时间序列生成时[80]。

最后一项是研究基于模型反演的 CIL 方法 [45, 81],该方法已被证明在图像域中合成伪样本方面是有效的。

(2) 类内变异:将类内变异纳入 CIL 方法中的情况根据其使用的策略而有所不同。 对于正则化,假设不同类之间的类内变化相似[​​83],一个潜在的途径是设计一个度量来捕获可用作正则化项的类内变化。 对于 ER,一个方向是定制内存管理策略以考虑类内变化。 对于GR,可以实现集群内条件生成器[84]来提高性能。

(3)非标准CIL设置:本文重点讨论标准CIL设置。 对于行业环境,人们可能需要考虑当前学术设置之外的更多实际因素,例如数据不平衡[35]、不规则抽样[25]以及在线[48]或多视图学习[38]。 我们计划在未来扩展我们的框架以纳入这些具有挑战性的环境。

(4)频域知识的结合:当前CIL方法的关键局限性之一在于忽视了TS和图像之间的内在差异。 例如,时间序列比图像更有可能表现出周期性。 此外,TS将关键信息封装在频域或时频域内。 然而,现有的方法是通用的,忽略了这些重要的属性。 将这些属性融入到特定于 TS 的算法中是未来研究的一个重要课题。

(5) 时间序列基础模型:大型预训练模型在基于图像的 CIL [77] 中表现出了有竞争力的性能,即使在没有内存样本的情况下也是如此。 然而,TSCIL 中预训练模型的探索仍未得到充分研究,这主要是由于缺乏通用的 TS 预训练模型。 然而,开发时间序列基础模型 [79, 86] 的最新进展标志着一个重要的里程碑。 此类模型在大量 TS 数据集上进行预训练,可应用于分类或预测等各种下游任务。 将此类模型应用于 TSCIL 是一个有前途的探索方向。

7 结论

本文介绍了时间序列类增量学习(TSCIL)的统一评估框架。 我们提供了全面的比较,以证明现有 CIL 策略在解决 TSCIL 问题方面的前景和局限性。 我们广泛的实验评估了 TSCIL 的重要方面,包括算法、归一化层、内存预算和分类器选择。 我们发现基于重放的方法通常比正则化技术表现出优越性,并且使用 LayerNorm 代替 BatchNorm 显着缓解了稳定性-可塑性困境。 我们进一步探讨了对 TSIL 成功至关重要的时间序列数据的一些挑战。 结果和分析强调了标准化、数据隐私和类内变异的挑战,以及它们如何影响 TSCIL 的结果。 我们坚信我们的工作为 TSCIL 研发社区提供了宝贵的资产。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1179276.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Day84(10)-F:\硕士阶段\Java\课程资料\7、Redis入门到实战教程\Redis-笔记资料\03-高级篇\资料\item-service-多级缓存

安装和配置Canal 下面我们就开启mysql的主从同步机制,让Canal来模拟salve 1.开启MySQL主从 Canal是基于MySQL的主从同步功能,因此必须先开启MySQL的主从功能才可以。 这里以之前用Docker运行的mysql为例: 1.1.开启b…

【LeetCode热题100】Java详解:二叉搜索树中第K小的元素(含进阶优化与面试延伸)

【LeetCode热题100】Java详解:二叉搜索树中第K小的元素(含进阶优化与面试延伸) 面向人群 正在准备技术面试(尤其是大厂算法岗、后端开发岗)的程序员已掌握基础数据结构,希望深入理解二叉搜索树及其应用场…

如何提高图像识别的准确率?

你想了解的是如何提升图像识别(以MNIST手写数字识别为例)的准确率,核心是从数据、模型、训练策略、正则化四个维度优化,解决“欠拟合”(准确率低)、“过拟合”(训练准、测试差)两大核心问题。下面我会结合MNIS…

数据结构入门:时间复杂度与排序和查找 - 详解

数据结构入门:时间复杂度与排序和查找 - 详解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", &q…

STM32单片机16*16汉字点阵广告牌75(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

STM32单片机16*16汉字点阵广告牌75(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码 产品功能描述: 本系统由STM32F103C8T6单片机核心板、16*16点阵屏显示模块、按键及电源组成。 1、通过按键可以切换点阵屏显示内容…

Meta 收购 Manus:AI 智能体由对话转向执行的转折点

在 2025 年的最后一天,Meta 公司通过官方渠道确认了对 AI 初创企业 Manus 的收购计划。根据相关分析机构披露的数据,这笔交易涉及金额预计超过 20 亿美元。这一变动不仅是 Meta 在人工智能领域扩张的延续,也反映出全球科技巨头正在将研发重点…

Python+django的旅游景点交通酒店预订网的设计与实现

目录设计背景与目标系统功能模块技术实现方案系统特色与创新应用价值与总结开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!设计背景与目标 随着旅游业的快速发展,游客对便捷的景…

【时频分析】基于matlab面向相交群延迟多分量信号的时频重分配同步挤压频域线性调频小波变换【含Matlab源码 14985期】复现含文献

💥💥💥💥💥💥💞💞💞💞💞💞💞💞欢迎来到海神之光博客之家💞💞💞&#x1f49…

如何通过数据分析实现精准产品定位

如何通过数据分析实现精准产品定位 关键词:数据分析、精准产品定位、市场细分、用户画像、数据挖掘 摘要:本文旨在探讨如何利用数据分析来实现精准的产品定位。通过对市场数据、用户数据等多源数据的深入分析,我们可以更好地了解市场需求、用户偏好和竞争态势,从而为产品找…

day141—递归—二叉树的最大深度(LeetCode-104)

题目描述给定一个二叉树 root ,返回其最大深度。二叉树的 最大深度 是指从根节点到最远叶子节点的最长路径上的节点数。示例 1:输入:root [3,9,20,null,null,15,7] 输出:3示例 2:输入:root [1,null,2] 输…

STM32-270-多功能水质监测系统(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

STM32-270-多功能水质监测系统(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码 产品功能描述: 本系统由STM32F103C8T6单片机核心板、TFT1.44寸彩屏液晶显示电路、(无线蓝牙/无线WIFI/无线视频监控模块-可…

基于图像模糊度统计和盲卷积滤波的图像去模糊算法matlab仿真

1.前言 基于图像模糊度统计和盲卷积滤波的图像去模糊算法,结合了对图像模糊程度的量化评估和无需预先知道模糊核的图像恢复技术,能够在一定程度上自动分析图像的模糊特性并进行有效复原。 2.算法运行效果图预览 (完整…

Python+django的同城社区篮球队管理系统 体育运动篮球赛事预约系统

目录同城社区篮球队管理系统摘要开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!同城社区篮球队管理系统摘要 该系统基于PythonDjango框架开发,旨在为社区篮球爱好者提供便捷的球…

Python+django的图书资料借阅信息管理系统的设计与实现

目录摘要开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!摘要 随着信息化时代的快速发展,图书资料的管理效率成为图书馆和各类机构关注的重点。传统的纸质记录方式效率低下且容易…

HTML打包EXE工具2.2.0版本重磅更新 - 2026年最新版本稳定性大幅提升

HTML打包EXE工具迎来2026年首个重要版本更新!2.2.0版本专注于稳定性提升和用户体验优化,修复了多个影响使用的关键问题,新增清理本地激活数据功能,为开发者提供更可靠的HTML转EXE解决方案。 软件官网 HTML打包EXE工…

STM32-S273-对讲机频道可设+语音通话+一对多+状态显示+铃音提醒+按键设置+OLED屏+声光提醒(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

STM32-S273-对讲机频道可设语音通话一对多状态显示铃音提醒按键设置OLED屏声光提醒 STM32-S273N(硬件操作详细): 产品功能描述: 本系统由STM32F103C8T6单片机核心板、OLED屏、(无线蓝牙/无线WIFI/无线视频监控/联网云平台模块-可选)、对讲机模…

STM32智能家居光照温度可燃气检测系统32-907(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

STM32智能家居光照温度可燃气检测系统32-907(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码 产品功能描述: 本系统由STM32F103C8T6单片机核心板、TFT彩屏(1.44寸屏按键/3.5寸触摸屏/7.0寸触摸屏)、无线选择&#x…

基于深度学习的PCB板元器件检测系统演示与介绍(YOLOv12/v11/v8/v5模型+Pyqt5界面+训练代码+数据集)

本文介绍了一个基于YOLO算法的PCB板元器件检测系统,该系统可识别22种元器件,支持图片、视频、批量文件和摄像头实时检测。系统采用Python3.10开发,前端使用PyQt5,数据库为SQLite,集成了YOLOv5/v8/v11/v12等多种模…

51单片机心率计脉搏测量仪表体温检测73(设计源文件+万字报告+讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码

51单片机心率计脉搏测量仪表体温检测73(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码51单片机心率计脉搏测量仪表体温检测73(设计源文件万字报告讲解)(支持资料、图片参考_相关定制)_文章底部可以扫码…

Python+django的数字化高校宿舍报修出入登记调换宿舍管理系统的实现

目录数字化高校宿舍管理系统实现摘要开发技术路线相关技术介绍核心代码参考示例结论源码lw获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!数字化高校宿舍管理系统实现摘要 该系统基于PythonDjango框架开发,旨在解决传统高校宿舍管理…