【数据挖掘】如何修复时序分析缺少的日期

一、说明

        我撰写本文的目的是通过引导您完成一个示例来帮助您了解 TVF 以及如何使用它们,该示例解决了时间序列分析中常见的缺失日期问题。

        我们将介绍:

  • 如何生成日期以填补数据中缺失的空白
  • 如何创建 TVF 和参数的使用
  • 如何呼叫 TVF
  • 我们将考虑扩展我们的日期生成器以获得更大的灵活性。
  • 最后,我将分享如何访问我的TVF,并向您介绍一个名为BigFunctions的开源项目。

二、简述

在某些情况下,数据为零的日期很重要,必须在数据集中显示/包含。例如:

  • 企业可以从识别零售中没有销售的天数中受益。这些日子受到假期或客户行为变化的影响。
  • 查找数据中缺失的日期有助于揭示由系统故障或不完整的数据捕获引起的异常或异常值,从而提高数据质量。显示缺少的日期是实现此目标的有用工具。

        这些缺失的日期可能会导致分析和可视化问题。因此,您需要一个解决方案来确保输出中存在所有日期,即使没有相应的数据也是如此。

        在本文结束时,您将拥有自己的 TVF,它可以生成这个......

        从一行代码开始吧!

三、缺失日期如何补救?

        请考虑以下方案:您运行了一个查询,该查询按日期提供过去四周的总调查响应结果。然后,您将结果导入 Google 表格,以快速可视化数据。

        上图没有突出显示任何缺失的数据;它看起来完全符合预期。即使您选择在 x 轴上显示所有日期,您也没有注意到 7 月中缺少的两天也是可以原谅的。

        上图是真实数据,并真实反应7月缺少两天的数据,因而数据较窄。从中可以看出,Google的数据填充是天衣无缝的感觉,问题是离开Google,我们自己是否依然能够处理好这种缺失问题?答案是:需要经过一番研究。

四、我们如何解决这个问题

         为了解决这个问题,我创建了我喜欢称之为日期轴的东西。 此日期/周/月列(无论需要什么时间段)都是与正在分析的数据集分开构建的。这可确保日期是独立的,并且不依赖于数据存在。

        创建日期轴相当简单,尽管如果您经常需要创建一个,则很麻烦。

        下面是一个简单的示例,它生成2023-6-16到 2023-6-19 日之间的日期。


WITH date_axis as (SELECTdates
FROMUNNEST(generate_date_array("2023-06-19","2023-07-16")) as dates
)SELECTdates
FROMdate_axis

        generate_date_array函数是其中的关键部分,但正如函数名称所暗示的那样,输出以数组形式返回。因此,我们必须在下一步中取消嵌套(展平)此数组。

        日期轴存在于 CTE 中,因为我们需要将其视为一个单独的表,将我们的实际数据左连接到日期列表。

WITH date_axis as (SELECTdates
FROMUNNEST(generate_date_array("2023-06-19","2023-07-16")) as dates
)SELECTdates,responses as original_responses,ifnull(responses,0) as new_responses
FROMdate_axis as axis
LEFT JOIN`spreadsheep-20220603.Case_Studies.survey_responses` as surveyON axis.dates = survey.date

        正如您在上面看到的,我们在survey_responses表中为 7 月 2 日和 1 日的值,因为这些日期不存在。使用日期轴,我们可以轻松发现这些并适当地处理它们,在这种情况下,值将替换为0。

        重新绘制更新的数据,我们现在捕捉到7月初缺乏回复的情况。

五、关于TVF的使用(table value Function)?

5.1 什么是TVF

        TVF 是表值函数的缩写,table value Function。与 UDF(用户定义函数)非常相似,它们允许您指定一系列任务,这些任务将在调用自定义函数时运行。

        两者之间的区别在于 UDF 为数据集中的每一行返回结果,而 TVF 返回整个表。

        您可能想知道,如果 CTE 方法完美地完成了这项工作,那有什么意义。好吧,在 TVF 中,我们可以扩展日期轴函数的功能和可重用性并简化我们的代码。

        有许多创造性和有用的方法来使用 TVF,在本文中,我们将使用一种方法来生成日期轴。

5.2 创建TVF

CREATE OR REPLACE TABLE FUNCTION `spreadsheep-20220603.Case_Studies.generate_dates`(start_date DATE, end_date DATE)
AS (
SELECTdates
FROMUNNEST(generate_date_array(start_date,end_date)) as dates
)

        创建 TVF 既好又容易;从“开始,然后是要在项目中保存 TVF 的位置。然后,您可以添加参数,我们在此示例中添加了两个参数。create or replace table function

        start_date DATE, end_date DATE

        如下所示,这两个参数替换了我们添加到 generate_date_array 函数的静态值。

        unnest(generate_date_array(start_date,end_date)) as dates

        创建 TVF 后,您可以像调用表一样调用新函数。请注意,我在 FROM 子句末尾添加了括号,以指定我希望 TVF 使用哪些值,其中 7 月 1 日作为开始日期,7 月 7 日作为结束日期。

SELECT dates 
FROM `spreadsheep-20220603.Case_Studies.generate_dates`("2023-07-01", "2023-07-07")

        我们现在可以更新原始查询以使用新的 TVF。

WITH date_axis as (
SELECT dates 
FROM `spreadsheep-20220603.Case_Studies.generate_dates`("2023-06-19", "2023-07-16")
)SELECTdates,responses as original_responses,ifnull(responses,0) as new_responses
FROMdate_axis as axis
LEFT JOIN`spreadsheep-20220603.Case_Studies.survey_responses` as surveyON axis.dates = survey.date

5.3 在TVF上扩展

        到目前为止,该函数非常有限,因为它只提供日期。如果我们想要一周的开始日期,一周从星期日开始,或者我们想要过去几年的季度开始和结束日期,该怎么办?

        虽然我们可以将该逻辑添加到调用 TVF 的 CTE 中,但让我们在 TVF 中处理它,以便在需要时它就在那里。

        我的最终版本增加了一些其他可能性,具体取决于您是否需要每周、每月或每季度的日期范围。

CREATE OR REPLACE TABLE FUNCTION `spreadsheep-20220603.Case_Studies.generate_dates`(start_date DATE, end_date DATE)
OPTIONS (description="Generate a table of dates") AS (
(
selectdate,format_date("%a", date) as day_of_week,date_trunc(date, week(monday)) as week_start_monday,date_trunc(date, week(monday)) + 6 as week_end_monday,date_trunc(date, week(sunday)) as week_start_sunday,date_trunc(date, week(sunday)) + 6 as week_end_sunday,date_trunc(date, month) as month_start,date_add(date_trunc(date, month), interval 1 month) - 1 as month_end,date_trunc(date, quarter) as quarter_start,date_add(date_trunc(date, quarter), interval 1 quarter) - 1 as quarter_end,
from unnest(generate_date_array(start_date,end_date)
) as date
)
);

        这为我们提供了在本文开头看到的输出,其中单个查询行可以生成数年的日期,以及它们的周、月和季度部分。

        作为奖励,我们创建的这个函数不会查询任何实际数据。这意味着它是完全免费的,而且速度快如闪电。

        即使生成从 1820 年到现在的日期也只需 1 秒。

SELECT * FROM `spreadsheep-20220603.Case_Studies.generate_dates`("1820-07-01","2023-07-15")

摄影:Benjamin Davies on Unsplash

5.4 访问BigFunctions

        为了节省一些时间,您不必在项目中创建此 TVF;您可以使用公共版本,该版本存在于 BigFunctions 开源项目中。

        要将 BigFunctions 添加到项目中,您可以使用资源管理器添加功能,然后“按名称为项目加星标”,如下所示。

        这些函数在每个区域中都可用,在每个数据集中,您可以在“例程”下找到generate_dates。试试下面的代码!

SELECT * FROM `bigfunctions.europe_west2.generate_dates`("2022-01-01", "2023-01-01");

        有关 BigFunctions 的更多详细信息可以在这里找到,其中充满了很棒的自定义函数,其中一些甚至使用 Python 来运行各种整洁的东西。如果您在日常角色中使用 BigQuery,请查看它。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/9282.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

字典序排数(力扣)思维 JAVA

给你一个整数 n ,按字典序返回范围 [1, n] 内所有整数。 你必须设计一个时间复杂度为 O(n) 且使用 O(1) 额外空间的算法。 示例 1: 输入:n 13 输出:[1,10,11,12,13,2,3,4,5,6,7,8,9] 示例 2: 输入:n 2 输…

3.矩阵常用操作

文章目录 线性代数的常用操作1.向量的内积2.向量的外积3.正交向量4.正交向量组5.向量空间的基与维数6.正交矩阵7.反对称矩阵8.齐次坐标与齐次变换矩阵9.相似矩阵10.相似对角化11.矩阵的特征分解12.奇异值分解SVD12.1 SVD求齐次矩阵方程的最小二乘解 13.满秩分解14.Pseudo-Inver…

使用网络 IP 扫描程序的原因

随着网络不断扩展以满足业务需求,高级 IP 扫描已成为网络管理员确保网络可用性和性能的关键任务。在大型网络中扫描 IP 地址可能具有挑战性,这些网络通常包括具有动态 IP、多个 DNS、DHCP 配置和复杂子网的有线和无线设备。使用可提供全面 IP 地址管理 &…

symfony/console

github地址:GitHub - symfony/console: Eases the creation of beautiful and testable command line interfaces 文档地址:The Console Component (Symfony 5.4 Docs) 默认命令list,可以用register注册一个command命令,之后可以…

缺陷推进管理办法

1.测试对缺陷做初步分析定位 测试对缺陷做初步分析定位,减少缺陷流转过程的消耗,如: 客户端测试时可以抓包看一下是接口返回数据有问题,还是客户端有问题 Web前端发现问题,可以F12看一下接口响应、返回信息等&…

面试题汇总——Java异常

异常类(Throwable)的种类 Java异常类(Throwable)可以分为两种: 错误Error:与虚拟机相关的问题,Java 虚拟机无法解决的严重问题;如:StackOverflowError 和 OOM。异常Exception:程序编码错误或外界因素导致等,能被系统捕获并处理; 检查型异常(CheckedException):…

【简单图论】CF1833 E

Problem - E - Codeforces 题意&#xff1a; 思路&#xff1a; 显然&#xff0c;最大值就是什么边都不连的连通块个数&#xff0c;最小值就是能连的都连上 那就是&#xff0c;如果一个连通块存在度为1的点&#xff0c;就把它当作接口连接 Code&#xff1a; #include <b…

Spring Boot 集成 Redis 三种模式实践汇总

背景 项目的某个模块集成了 SpringBoot Redis 包&#xff0c;客户端使用 Lettuce&#xff0c;Redis 测试环境单机模式。但是现场反馈的 Redis 环境是集群&#xff0c;如果简单的修改 spring.redis 配置为集群的配置信息&#xff0c;程序能否能无缝衔接呢&#xff1f; 本文记录…

音视频——帧内预测

H264编码(帧内预测) 在帧内预测模式中&#xff0c;预测块P是基于已编码重建块和当前块形成的。对亮度像素而言&#xff0c;P块用于44子块或者1616宏块的相关操作。44亮度子块有9种可选预测模式&#xff0c;独立预测每一个44亮度子块&#xff0c;适用于带有大量细节的图像编码&…

HTTPS简介

一、简介与原理 http协议是明文传输的&#xff0c;因此很容易被截取和解析&#xff0c;泄漏个人数据。https协议是在http和tcp之间多添加了一层&#xff0c;进行身份验证和数据加密。 HTTPS 原理 ① 客户端将它所支持的算法列表和一个用作产生密钥的随机数发送给服务器 ②…

Gempy三维结构地质建模简明教程

Gempy 是一个开源 Python 库&#xff0c;用于生成完整的 3D 结构地质模型。 该库是一个完整的开发&#xff0c;用于从界面、断层和层方向创建地质模型&#xff0c;它还关联地质层的顺序以表示岩石侵入和断层顺序。 推荐&#xff1a;用 NSDT设计器 快速搭建可编程3D场景。 地质建…

LLaMA2可商用|GPT-4变笨|【2023-0723】【第七期】

一、大咖观点&#xff1a; 傅盛&#xff1a;ChatGPT时代如何创业 - BOTAI - 博客园Google 已经被OpenAI 超越了吗&#xff1f;| AlphaGo 之父深度访谈《人民日报》&#xff1a;大模型的竞争&#xff0c;是国家科技战略的竞争WAIC 2023 | 张俊林&#xff1a;大语言模型带来的交…

Node.js:execSync执行一个shell命令

默认输出是Buffer对象 const { execSync } require(child_process)let out execSync("echo hi") console.log(out); // <Buffer 68 69 0a>需要转为字符串 const { execSync } require(child_process)let out execSync("echo hi") console.log(…

设计模式之状态模式

状态决定行为。由于状态在运行期间是可以被改变的。在VoteManager类中根据条件来创建不同的状态实现类&#xff0c;于是到最后就会调用不同的逻辑。 看起来同一个对象&#xff0c;在不同的运行时刻&#xff0c;行为是不一样的&#xff0c;就像是类被修改了一样&#xff01; 场…

labview 信号量实现互斥 避免竞争写

上一篇文章中描述了事件发生、集合点、通知器、信号量。 本文进一步举例描述信号量实现互斥&#xff0c;避免竞争写。 1.不用信号量的例子 图1-不用信号量的结果都不同&#xff0c;不为0 图2-不用信号量的例子&#xff0c;程序框图 2.用信号量的例子 图3-用信号量的例子&…

结构型设计模式之亨元模式【设计模式系列】

系列文章目录 C技能系列 Linux通信架构系列 C高性能优化编程系列 深入理解软件架构设计系列 高级C并发线程编程 设计模式系列 期待你的关注哦&#xff01;&#xff01;&#xff01; 现在的一切都是为将来的梦想编织翅膀&#xff0c;让梦想在现实中展翅高飞。 Now everythi…

Unity中使用CSV文件作为关卡数据

要在Unity中使用CSV文件作为关卡数据&#xff0c;并在通关后导入下一关的CSV文件数据&#xff0c;你可以按照以下步骤进行操作&#xff1a; 创建一个空的游戏对象&#xff0c;将其命名为"LevelManager"。 在"LevelManager"对象上创建一个C#脚本&#xff0…

MySQL 主从复制的认识 2023.07.23

一、理解MySQL主从复制原理 1、概念&#xff1a;主从复制是用来建立一个和 主数据库完全一样的数据库环境称为从数据库&#xff1b;主数据库一般是准实时的业务数据库。 2、作用&#xff1a;灾备、数据分布、负载平衡、读写分离、提高并发能力 3、原理图 4、具体步骤 (1) M…

Go 工具链详解(四): Golang环境变量设置和查看工具 go env

go env 作用 go env 是 Go 工具链中的一个命令&#xff0c;用于设置和查看当前 Golang 环境的相关信息&#xff0c;对于理解、编译和运行 Golang 程序非常有用。 go 提供的命令及 go 程序的编译运行都会使用到环境变量&#xff0c;如果未设置对应的环境变量&#xff0c;go 则…

Windows nvm 安装后webstrom vue项目编译报错,无法识别node

1 nvm安装流程 卸载原先nodejs用管理员权限打开exe安装nvmnvm文件夹和nodejs文件夹 都授权Authenticated Users 完全控制nvm list availablenvm install 16.20.1nvm use 16.20.1输入node和npm检查版本命令&#xff0c;正常显示确认系统变量和用户变量都有nvm 和nodejs 2 bug情…