数据生成方法初步调研

news/2025/10/5 9:45:05/文章来源:https://www.cnblogs.com/dingxingdi/p/19124151

也有论文专门提到金融领域的数据收集
将时序归一化之后离散化的效果会不会好一点(有些关系可以做差分来理解)

数据生成的内容有两个:时间序列和对齐的文本。时间序列的生成不是什么难的事情,所以研究主要集中在生成对齐文本上
现有技术大致可分为三类:Template-based、LLM-based以及Web-crawled

Template-based

这些方法通过将提取的时间序列特征填充到预定义模板中来生成文本描述
语言模型在处理数值数据时有局限性,所以时间序列的生成任务往往更倾向于模板化方法

  • TimeSeriesExam
    这篇工作创造了一个可拓展,可配置的数据集,主要目的是为了评测LLM理解时间序列基本模式的能力。这里的基本模式指的是:趋势、季节性以及噪声。之所以叫做基本模式,是因为理解一个时间序列还可以通过这个时间序列的来源来加强理解。比如现在知道了这个时间序列是一个心电图的时间序列,肯定比不知道这个时间序列是一个心电图的时间序列更好。而现有的很多工作对LLM的测试都不是只测试的基本能力(比如前面这个例子,假设大模型对时间序列的理解并不好,我们不能判断到底是对时间序列本身理解不好,还是对心电图这个概念不理解)
    这篇工作还测试了LLM的推理能力:异常检测(也就是检测时间序列的不平滑的地方)、比较推理(比较两个时间序列的统计属性)以及推测因果关系(Granger Causality)
    更具体的分类如下
    image
    作者于TS专家一起手动创建了100多个模板。问题模板的组成如下

    • 选择上面提到的一个Category(可加上Subcategory)
    • 包含一个问题和这个问题的若干个选项
    • 一个QA对的例子,用作上下文学习(但是论文没有举出具体的例子,我也不是很理解这里到底是什么样子)
    • 一个提示(类似于CoT)
    • 对专业术语的解释(为了测试LLM的基本理解能力)

    image
    利用模板生成对应的时间序列的步骤:

    • 随机选择一个模板
    • 随机确定这个模板中的正确答案
    • 从预定义的Base Patterns中采样若干
      • 周期性Base Patterns比如正弦函数
      • 非周期性Base Patterns比如线性递增函数
      • 随机时间变化过程比如自回归过程
    • 将采样的Base Patterns进行某种运算来组合
    • 添加噪声和异常点(用另一篇论文提到的方法)

    image
    最后,论文通过一个叫做IRT的技术来对生成的数据进行打分。IRT是考试研究领域里面的一个工具,主要目的是拟合题目的难度、区分度以及参加考试的人的能力这三个变量

  • LLMTime
    这篇论文的主要思路是评估LLM是否有预测时序的能力。作者从一些预定义的简单分布中采样,然后让GPT-4做选择题,说这个序列来自哪个分布;当然还用了已有的数据集去测评

  • ChatTime
    这篇论文建立了一个文本时序模态输入输出模型。采样的过程:从若干数据集中,设定窗口长度,历史长度,预测长度以及步长进行采样;对应的文本信息的构建比较简单,会给出这个序列的来源以及时间点的信息(比如是星期几),还利用了KernalSynth这个方法

  • Towards Time-Series Reasoning with LLMs
    这篇论文认为时序文本大模型要做好,关键有三步:(1) 感知 – 理解并识别时间序列数据中的关键特征。(2) 情境化 – 基于提供的文本上下文提取与任务相关的特征。(3) 演绎推理 – 基于观察得出结论。所以他们训练一个轻量级的时间序列编码器,并在经过思维链推理增强的任务上使用监督微调进行训练
    生成数据的方法在附录C里面,但是非常泛泛而谈

  • ChatTS
    这篇研究提出了基于属性的数据生成的方法,这个样子可以精确地描述合成数据的属性。
    作者将时间序列属性分为四个部分:趋势,周期性,噪声和局部波动
    生成时序数据的步骤如下:

    • 定义All Attribute Set
      • 四种趋势
      • 七种周期性
      • 三种噪声
      • 十九种局部波动
    • 从一个包含567种评估指标的Metric Set中随机选择一个评估指标
    • 让GPT根据这个评估指标,从All Attribute Set中选择一个Attribute Subset(同一个属性中,可以选择多个子属性)
    • 用Attribute Sampler根据Attribute Subset随机采样一种组合(一个时间序列可以包含多个趋势段和多个局部波动;通过组合正弦波,我们可以生成多种周期性波动模式),把结果存储在Attribute Pool中
    • 最后Time Series Generator根据Attribute Pool生成时间序列

    image
    生成时序文本对监督数据的思想借鉴了Evol-Instruct,叫做TSEvol:

    • 每次从一个生成的时间序列的Attribute Pool中随机抽取一个子集,加入到已经选择的集合A中
    • 选择一个Evol Type,将Evol Type和集合A喂给大模型,让大模型生成QA
    • 用一个基于属性的eliminator来保证生成的QA与时序的属性匹配
  • TempoGPT

    • 采用白盒电路,观察六个变量(电源电压,电路电压以及电流)构成时间序列。为了模拟异常情况,在特定范围内随机调整了电路内部元件的固有参数(例如修改电压源的最大幅度和负载的电阻值)
    • 由于是白盒系统,所以预训练阶段和微调阶段的文本就很容易给出来(有模板)
      • 预训练阶段主要是询问关于六个变量的异常情况
      • 微调阶段主要是利用CoT测试trend analysis, trend forecast, fault judgment, fault diagnosis, and fault analysis
      • 最后有了QA中的Q之后,还可以让GPT拓展一下Q让Q变得更复杂

LLM-based

这些方法通过将TS输入给LLM来让LLM输出文本

  • Syscaps
    这篇工作已有的数据是结构化数据,利用两种方法将结构化数据转化

    • 键值对方法:将不同的键值对之间用|连接
    • LLM方法:把结构化数据输入给LLM,让其输出结构化数据的文本描述

    image
    这篇工作还利用了已有的特征选择方法减少结构化数据的条目

  • Insight Miner
    这篇工作生成与传统的指令微调的数据格式相近的数据,主要询问时序的趋势,周期和残差方面的内容
    image
    其中\(W_k\)是时序,\(L_k^Q,L_k^A\)是QA
    产生这个数据的步骤(以生成询问有关趋势的问题):

    • 从一个已有的时序数据中随机采样一个窗口
    • 判断这个窗口是否有周期性
      • 如果有周期性,使用STL Decomposition分解,将时序分解成“趋势+周期+残差”
      • 如果没有周期性,使用高斯过程分解
    • 进行平滑和下采样(平滑去噪,下采样降低成本)
    • 送给GPT-4让其输出
      image
      在数据产生之后,作者还有如下的后处理:
    • 周期的粒度不同(比如以天或者周为单位),于是为了适应不同的粒度,将多个时间步进行聚合
    • 为了提高数据利用率,对时序或者文本进行修改
      • 对时序采用随机增强,使得时序仍然满足对应文本的描述
      • 用GPT-3.5-turbo对文本进行近义改写
  • TSLM
    这篇工作在数据生成的贡献就是利用LLM生成时序文本对,然后再训练一个打分器,用来去除LLM生成的时序文本对中的噪声。生成时序文本对的时候,使用了少样本学习,并且利用Python的fuzzywuzzy库将文本相似的样本聚合在一起喂给LLM,可以减少噪声
    image

Web-crawled approaches

  • Time-MMD
    这篇工作就是比较普通的爬虫,但是考虑到的细节很多,很琐碎,有一丢丢新颖的地方还是利用LLM去筛选
    提到的三个现有工作的缺陷我觉得挺重要的:(1) 数据领域狭窄。不同领域的数据特征和模式各不相同,例如数值数据的周期性和文本数据的稀疏性。然而,当前的多模态 TS 数据集 [15; 70; 11; 49; 6] 仅专注于金融领域的股票预测任务,无法代表多样化的数据领域。(2) 粗粒度的模态对齐。现有的多模态 TS 数据集仅确保文本和数值数据来自同一领域,例如通用的股票新闻和某只特定股票的价格。显然,大量不相关的文本会降低多模态 TSA 的有效性。(3) 固有的数据污染。现有的多模态 TS 数据集忽视了两个主要的数据污染原因:① 文本数据常常包含预测。例如,流感展望是流感报告中的一个常规部分。② 过时的测试集,特别是其中的文本数据,可能已经暴露于 LLM,而 LLM 是在海量语料库上预训练的。
  • GPT4MTS
    没啥很新的想法,就是有一个gdeltproject.org项目,上面的数据好像挺多的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/928087.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入解析:一起学Spring AI:核心概念

深入解析:一起学Spring AI:核心概念2025-10-05 09:42 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !i…

顺德网站优化做网站挣钱吗现在

虚拟化与容器化对比 容器化和虚拟化都是用于优化资源利用率并实现高效应用程序部署的技术。然而,它们在方法和关键特征上存在差异: 虚拟化: 可以理解为创建虚拟机 (VM)。虚拟机模拟一台拥有自己硬件(CPU、内存、存储)和操作系统…

哈尔滨网站设计哪里有做网站维保方法

就好像我上面所说的,你要保证源代码转换后的中文是正确的编码。你估计是 msvc 编译的吧。那货默认 gbk 编码,但 tr 不知道,转换后到内存里面的文字可能就乱码了。办法好几个,不过不具可移植性。我现在的实践,不在字符串…

Go 即时通讯体系:日志模块重构,并从main函数开始

Go 即时通讯体系:日志模块重构,并从main函数开始pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas"…

作为一个高中生开发者,我的所思所想

作为一个高中生开发者,我的所思所想各位若觉得我年幼无知、缺乏阅历、不知天高地厚,尽可直言 —— 这些评价,真没毛病。 要是觉得有些ai味,没错,写完用ai润色了一下 自我介绍 我是上海一所高中的高二学生,就读于…

[Godot] 如何导出安卓 APK 并在手机上调试 - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

代码随想录算法训练营 Day61 图论ⅩⅠ Floyd A※ 最短路径算法 - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

旅游网站系统设计wordpress图文标题一体布局

解析 倍增真香 关键性质:树上距离一个点最远的点必定是直径两端点其一。 本题限制好,要求少动态维护倍增数组暴力维护直径即可。 如果每次合并的是两棵树,而不是一棵树加一个点,可以先离线下来,照样能做。 如果每次强…

视频付费网站建设网站怎样做反向链接

目录 lua_shared_dict lua-resty-lrucache 新建 设置 获取 删除 综合使用案例 计数 全部刷新 lua_shared_dict 语法&#xff1a; lua_shared_dict <名称> <大小> 默认值&#xff1a; 否 上下文&#xff1a; http 阶段&#xff1a; 取决于使用情况 声明一…

Elastic Stack 9.1.4 发布:重要安全更新与功能优化

Elastic Stack 9.1.4 版本正式发布,建议用户升级至该最新版本。本文详细介绍了该版本的修复问题和各产品变更列表,包含重要的安全更新和功能改进。Elastic Stack 9.1.4 发布 作者:Stamatis Kourkoutas 发布日期:20…

2025钛白粉源头厂家最新推荐排行榜:覆盖广东珠三角东莞华南深圳长三角地区的优质供应商解析

当前钛白粉市场需求持续升级,下游涂料、塑料、造纸等行业对产品白度、遮盖力、相容性等指标要求愈发严苛,同时环保政策趋严倒逼行业技术革新。然而,市场上部分厂家存在技术储备不足、质量管理体系不完善等问题,导致…

详细介绍:Ubuntu开机自动运行Docker容器中的Qt UI程序

详细介绍:Ubuntu开机自动运行Docker容器中的Qt UI程序2025-10-05 09:26 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; d…

免费网站建设公司联系方式wordpress会员登陆

弗洛伊德算法大致有点像dp的推导 dp[i][j] min(dp[i][k] dp[k][j], dp[i][j]), 其中 i 是起始点&#xff0c;j 是终止点。k是它们经过的中途点。 通过这个公式不断地更新dp[i][j],得到最短路径长。 我们先定义两个矩阵&#xff0c;minpath[i][j],表示的是从 i 到 j 当前得到的…

完整教程:图论回溯

完整教程:图论&回溯pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", &q…

自已创建网站要怎么做网站策划就业前景

一个整数由个位、十位、百味...组成&#xff0c;我们知道整数可以用int型表示&#xff0c;那么一个整数到底是几位数呢&#xff1f;&#xff1f; 下面这个代码就是来计算位数的&#xff1a; #include<stdio.h>// 获得num的位数 int getbit(int num) {if(num 0)return 0…

用 Whisper 打破沉默:AI 语音技术如何重塑无障碍沟通方式? - 指南

用 Whisper 打破沉默:AI 语音技术如何重塑无障碍沟通方式? - 指南pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: &quo…

什么事三合一网站百度免费推广

光电耦合器作为一种关键的电子连接器&#xff0c;在航天航空领域扮演着重要角色。本文将深入探讨光电耦合器在航天航空领域的应用及其技术特点。 光电耦合器在航天航空领域的应用 光电耦合器作为一种高可靠性、高速传输、抗干扰能力强的连接器&#xff0c;在航天航空领域有着广…

实用指南:【论文阅读 | PR 2024 |ICAFusion:迭代交叉注意力引导的多光谱目标检测特征融合】

实用指南:【论文阅读 | PR 2024 |ICAFusion:迭代交叉注意力引导的多光谱目标检测特征融合】pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !impo…

软件设计师难考吗网站seo规划

AutoUpdater.NET 是一款用于WPF、Winform软件版本更新的框架&#xff0c;类似框架还有Squirrel、WinSparkle、NetSparkle、Google Omaha。 一、安装AutoUpdater.NET 首先&#xff0c;您需要在项目中安装AutoUpdater.NET库。您可以通过NuGet包管理器来安装它。在Visual Studio中…

做网站一般要了解哪些重庆妇科医院排名最好的医院

android提高UI的流畅度Android中所有的界面绘制工作都是在UI线程中进行的&#xff0c;提高UI流畅度的最核心根本在于释放UI线程。即:不在主线程中做耗时的操作。很多人都知道&#xff0c;耗时的操作要放到子线程中去做&#xff0c;比如访问网络&#xff0c;比如读写sd卡。像这类…