清华团队提出时序聚类数据库内高效方案,已被SIGMOD 2025接收

时间序列聚类是挖掘物联网等场景下频繁模式的关键技术,但现有SOTA方法(如K-Shape)面临两大瓶颈:1)传统数据库因LSM-Tree存储导致时间戳无序,难以直接支持高效聚类;2)跨时间范围查询需重复计算,效率低下。

清华大学团队创新提出K-Shape数据库内适配方案,首次实现时序聚类与存储引擎深度协同。针对长序列性能问题,进一步提出Medoid-Shape及其数据库优化版本,在保持精度的同时显著提速。实验验证,该方案在密集写入、多范围查询场景下性能优势突出,为时序分析开辟新路径!

我花了很长时间整理出了十几篇【时间序列+聚类】的相关论文,希望能帮到大家。

感兴趣的可以  [丝 xin]  我~~

在这里插入图片描述

 

【论文标题】In-Database Time Series Clustering

【论文链接】https://dl.acm.org/doi/10.1145/3709696

研究背景

时间序列聚类是一种重要的数据分析技术,广泛应用于多种领域。现有的最先进的(SOTA)时间序列聚类方法 K-Shape 能够高效地通过形状对时间序列进行聚类,并且其准确性显著优于其他方法。然而,K-Shape 在物联网(IoT)场景中面临挑战,因为物联网数据具有到达无序和大量数据存储的特点。因此,数据库内时间序列聚类所面临如下挑战:

  • 由于延迟到达,时间序列通常在 LSM 树数据库中以无序方式存储,而现有的聚类方法要求数据按时间顺序排列。按时间顺序对数据进行排序会带来额外的预处理时间开销。

  • 对于不同的任务,可能需要使用不同的时间过滤器反复执行聚类操作。每次 K-Shape 都需要从头开始聚类,效率低下。

  • K-Shape 在处理长子序列时效率低下,因为其复杂度与子序列长度成正比。

核心贡献

本研究致力于解决上述三个挑战。贡献可总结如下:

  • 数据库内K-Shape:提出了对现有聚类方法K-Shape的数据库内适应版本,利用数据库中预计算的页面级元数据进行加速。

  • Medoid-Shape:提出了一种新的聚类方法Medoid-Shape,通过用近似的中心点(medoid)代替K-Shape中的形状提取步骤,避免了耗时的特征向量分解。

  • 数据库内Medoid-Shape:将 Medoid-Shape方法适应到数据库内场景,进一步提高了聚类效率。

  • 实验验证:通过广泛的实验验证了所提方法的高效性和有效性。

方法解析

在这里插入图片描述

 

数据库内K-Shape

本文利用 LSM-Tree 的分层文件结构,通过多版本合并机制直接在数据库内对无序数据按时间范围排序,避免全量数据加载和外部排序开销。

  1. 单页元数据:对每页内的完整子序列运行 K-Shape,存储聚类中心、成员子序列的和矩阵(用于形状提取)、平均类内距离。不完整子序列单独存储,留待后续拼接。

  2. 多页聚合:相邻页:直接合并相似聚类中心,更新和矩阵(无需重新计算形状)。 互补页:将不完整子序列拼接为完整子序列,视为新页后合并。 重叠页:加载冲突数据点更新和矩阵,重新提取中心形状。

  3. 最终聚类:所有页聚合后,从全局和矩阵一次性提取最终聚类中心。 在这里插入图片描述

Medoid-Shape

K-Shape 基于 SBD(Shape-Based Distance)和迭代质心优化的复杂度为 ( 为序列数, 为序列长度),难以处理长序列。本文放弃传统质心迭代优化,改用聚类内真实存在的 Medoid 作为代表,避免特征向量分解的高计算量。

  1. 贪心算法:迭代选择样本子序列,每次选择能使目标函数提升最大的子序列加入中心集。将长序列划分为固定长度的子窗口,对每个子窗口进行局部形状对齐,降低全局对齐的计算复杂度。

  2. 近似评估:先对子序列做快速近似聚类,用聚类中心近似代表全体子序列。计算目标函数时,仅需比较中心与候选 Medoids,大幅减少计算量。

在这里插入图片描述

 

数据库内Medoid-Shape

本文在 LSM-Tree 的 Compaction 阶段预计算不同时间粒度的 Medoid 候选集,存储为元数据,加速查询时候选集筛选。基于时间范围查询条件,按层级索引快速定位相关数据分片,动态剔除不相关子序列的 Medoid 计算。

  1. 单页元数据:每页预计算近似聚类中心、类内平均距离、类大小。不存储和矩阵,节省空间。

  2. 多页聚合:相邻/互补页:按距离合并相似聚类中心,加权更新类内距离。重叠页:直接更新冲突子序列所属的聚类中心。

  3. 最终聚类:将所有页的近似中心作为候选,运行贪心算法选出最终 Medoids。

在这里插入图片描述

 

实验验证

不同数据负载下的可扩展性

在这里插入图片描述 子序列数量的可扩展性。上图展示了在不同子序列数量 N 下的时间成本。在所有数据规 模下,本文的数据库内方法表现最佳。

在这里插入图片描述 子序列长度的可扩展性。上图展示了不同子序列长度下的时间成本。随着子序列长度的增加,K-Shape 和基于数据库的 K-Shape 的时间成本迅速增加,这是由于形状提取过程耗时。然而,Medoid-Shape 和基于数据库的 Medoid-Shape 在子序列长度较大时,分别表现出高达 1 个和 2 个数量级的改进,所需的时间显著减少。

不同配置下的效率

在这里插入图片描述 随着补充页面数量的增加,数据库内方法的时间成本略有增加,因为需要额外处理新形成的子序列。然而,这些方法仍然优于传统方法。

在这里插入图片描述 in-database K-Shape 的时间成本随着重叠页面数量的增加而迅速增加,因为每次处理重叠页面都需要进行形状提取。相比之下,in-database Medoid-Shape 的时间成本增加较少,因为它可以在线性时间内处理重叠页面。

在这里插入图片描述 随着重叠长度的增加,数据库内方法的时间成本略有增加,因为需要更多时间来处理重叠部分。即使在极端情况下(所有页面都重叠,且重叠长度达到10,000个数据点),数据库内方法仍然优于传统方法。

总结

在本文中,我们研究了数据库内的时间序列聚类,以支持在基于 LSM 树的时间序列数据库中对不同时间范围的时间序列进行反复聚类。现有的数据库外方法在处理大量物联网数据以及频繁的具有不同时间过滤器的聚类查询时,效率低下。因此,我们提出利用数据库特性在数据库内高效地对时间序列进行聚类。具体而言,我们设计了一种基于数据库的 SOTA 时间序列聚类方法 K-Shape 的适应版本。为了解决 K-Shape 在处理长子序列时效率低下的问题,我们提出了 Medoid-Shape 以及相应的数据库内 Medoid-Shape 适应版本以进一步加速。我们推导了几个命题以确保在数据库内提议的多页聚合。我们还证明了 Medoid-Shape 的有保证的误差界限,以确保其有效性。值得注意的是,我们在 Apache IoTDB(一个开源的商品化基于 LSM 树的时间序列数据库)中实现了并部署了所有提议。大量的实验表明,我们的提议具有更高的效率,且有效性相当。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/81292.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【阿里云大模型高级工程师ACP学习笔记】2.8 部署模型

一、学习目标 特别说明:这一章节是2025年3月官方重点更新的部分,几乎对内容重新翻新改造了一遍,重点突出了对于如何结合不同的阿里云产品来部署大模型进行了更加详细的介绍和对比,这里整理给大家,方便大家参考。 在备考阿里云大模型高级工程师ACP认证的过程中,学习《2.8 …

第T10周:数据增强

🍨 本文为🔗365天深度学习训练营 中的学习记录博客🍖 原作者:K同学啊 从 tensorflow.keras 中导入 layers 模块,包含了常用的神经网络层,用来搭建模型结构。 检查并列出系统中可用的物理 GPU 设备&#xff…

uniapp 支付宝小程序自定义 navbar 无效解决方案

如图: uniapp编译到支付宝小程序隐藏默认的导航栏失效了 解决方案: 在 pages.json 文件中找到 globalStyle 中加入以下代码: "mp-alipay": {"transparentTitle": "always","titlePenetrate":…

vue2 el-element中el-select选中值,数据已经改变但选择框中不显示值,需要其他输入框输入值才显示这个选择框才会显示刚才选中的值

项目场景&#xff1a; <el-table-column label"税率" prop"TaxRate" width"180" align"center" show-overflow-tooltip><template slot-scope"{row, $index}"><el-form-item :prop"InquiryItemList. …

centos7 离线安装python3 保留python2

一、事前准备&#xff1a; &#xff08;1&#xff09;查看centos具体版本 cat /etc/redhat-releaseCentOS Linux release 7.4.1708 (Core) &#xff08;2&#xff09;查看linux中当前python版本 centos7 默认安装python2.7.5 &#xff08;3&#xff09;查看python3的依赖&#…

十三种通信接口芯片——《器件手册--通信接口芯片》

目录 通信接口芯片 简述 基本功能 常见类型 应用场景 详尽阐述 1 RS485/RS422芯片 1. RS485和RS422标准 2. 芯片功能 3. 典型芯片及特点 4. 应用场景 5. 设计注意事项 6. 选型建议 2 RS232芯片 1. RS232标准 2. 芯片功能 3. 典型芯片及特点 4. 应用场景 5. 设计注意事项 6…

2025年RAG技术发展现状分析

2025年&#xff0c;大模型RAG&#xff08;检索增强生成&#xff09;技术经历了快速迭代与深度应用&#xff0c;逐渐从技术探索走向行业落地&#xff0c;同时也面临安全性和实用性的新挑战。以下是其发展现状的综合分析&#xff1a; 一、技术架构的持续演进 从单一到模块化架构 …

case和字符串操作

使用if选择结构 if [];then elif [];then #注意这个地方,java是else if else ; fi 使用for循环结构 使用for循环&#xff0c;语法结构如下所示&#xff1a; for 变量名 in 值1 值2 值3 #值的数量决定循环任务的次数 do命令序列 done#循环输出1到10 for i in {1..10} #注…

Stm32 烧录 Micropython

目录 前言 准备工作 开始操作 问题回顾 后记 前言 去年曾经尝试Pico制作openmv固件&#xff0c;由于知识储备不够最后失败了&#xff0c;留了一个大坑&#xff0c;有了前几天的基础&#xff0c;慢慢补齐知识&#xff0c;最近这一周一直在学习如何编译Stm固件并烧录到单片机…

盐化行业数字化转型规划详细方案(124页PPT)(文末有下载方式)

资料解读&#xff1a;《盐化行业数字化转型规划详细解决方案》 详细资料请看本解读文章的最后内容。 该文档聚焦盐化行业数字化转型&#xff0c;全面阐述了盐化企业信息化建设的规划方案&#xff0c;涵盖战略、架构、实施计划、风险及效益等多个方面&#xff0c;旨在通过数字化…

2025年人工智能火爆技术总结

2025年人工智能火爆技术总结&#xff1a; 生成式人工智能 生成式人工智能可生成高质量的图像、视频、音频和文本等多种内容。如昆仑万维的SkyReels-V2能生成无限时长电影&#xff0c;其基于扩散强迫框架&#xff0c;结合多模态大语言模型和强化学习等技术&#xff0c;在运动动…

边缘计算革命:大模型轻量化部署全栈实战指南

当ResNet-152模型能在树莓派4B上实现每秒27帧实时推理时&#xff0c;边缘智能时代真正到来。本文解析从模型压缩到硬件加速的完整技术栈&#xff0c;实测Transformer类模型在移动端的部署时延可压缩至16ms&#xff0c;揭示ARM芯片实现INT4量化的工程秘诀与十种典型场景优化方案…

边缘计算:数字世界的”末梢神经系统”解析-优雅草卓伊凡

边缘计算&#xff1a;数字世界的”末梢神经系统”解析-优雅草卓伊凡 一、边缘计算深度解析 1.1 边缘计算的定义与架构 边缘计算&#xff08;Edge Computing&#xff09;是一种分布式计算范式&#xff0c;它将数据处理能力从传统的集中式云数据中心推向网络边缘&#xff0c;更…

面试手撕——迭代法中序遍历二叉树

思路 访问顺序和处理顺序不一致导致迭代法难写&#xff0c;体现在总要先遍历根节点&#xff0c;才能访问左右孩子&#xff0c;用null标记&#xff0c;null标记的节点表示已经访问过了&#xff0c;下一次可以处理&#xff0c;所以在当前栈顶节点不是null的时候&#xff0c;都要…

AD系列:Windows Server 2025 安装AD CS角色和颁发证书

什么是 Active Directory 证书服务&#xff1f; Active Directory 证书服务 (AD CS) 是一个 Windows Server 角色&#xff0c;负责颁发和管理在安全通信和身份验证协议中使用的公钥基础结构 (PKI) 证书。 颁发和管理证书 数字证书可用于对电子文档和消息进行加密和数字签名&…

kubernetes》》k8s》》Service 、Ingress 区别

K8S>>Service 资料 K8S >>Ingress 资料 Ingress VS Service 物理层数据链路层网络层传输层会话层表示层应用层 Ingress是一种用于暴露HTTP和HTTPS路由的资源&#xff0c;它提供了七层&#xff08;应用层&#xff09;的负载均衡功能。Ingress可以根据主机名、…

【java WEB】恢复补充说明

Server 出现javax.servlet.http.HttpServlet", according to the project’s Dynamic Web Module facet version (3.0), was not found on the Java Build Path. 右键项目 > Properties > Project Facets。Dynamic Web Module facet version选4.0即可 还需要在serv…

VMware 创建虚拟机+简易安装Ubuntu的详细操作步骤

VMware 创建虚拟机安装Ubuntu的详细操作步骤 一、创建虚拟机1.1 点击创建新的虚拟机1.2 选择自定义创建虚拟机1.3 选择虚拟机的硬件兼容性1.4 安装客户机操作系统1.5 简易安装信息1.6 命名虚拟机名称1.7 处理器配置1.8 虚拟机内核选择1.9 网络类型1.9 选择I/O 控制器类型1.10 选…

GCC-C语言“自定义段”

一、起因 事情的起因是这样的,在看别人代码时,发现了一种很有意思的写法,因为本人主要是以应用层开发为主,所以对这种写法还是比较少见的,所以研究了一下,就牵扯出了一些知识点,这里先卖个关子,继续往下看。 二、经过 发现了一串这样的代码 static void do_mac(mcmd_…

【信息系统项目管理师-论文真题】2021上半年论文详解(包括解题思路和写作要点)

更多内容请见: 备考信息系统项目管理师-专栏介绍和目录 文章目录 试题1:论信息系统项目的合同管理1、写作要点2、解题思路项目合同管理的过程项目合同主要的条款内容试题2:论信息系统项目的范围管理1、写作要点2、解题思路项目范围管理的过程核心范围对应的需求跟踪矩阵项目…