网站开发涉及技术张梅 合肥网站建设

diannao/2026/1/17 15:26:39/文章来源:
网站开发涉及技术,张梅 合肥网站建设,怎样让百度收录网站,phpcms漏洞【背景】 flink有几种聚合#xff0c;使用上是有一些不同#xff0c;需要加以区分#xff1a; 分组聚合#xff1a;group agg over聚合#xff1a;over agg 窗口聚合#xff1a;window agg 省流版#xff1a; 触发计算时机 结果流类型 状态大小 分组聚合group ag…【背景】 flink有几种聚合使用上是有一些不同需要加以区分 分组聚合group agg over聚合over agg 窗口聚合window agg 省流版 触发计算时机 结果流类型 状态大小 分组聚合group agg 每当有新行就输出更新的结果 update流 保持中间结果所以状态可能无限膨胀 over agg 每当有新行就输出更新的结果,类似一个滑动窗口 append流 保持中间结果所以状态可能无限膨胀 window agg 窗口结束产生一个总的聚合结果 append流 不生成中间结果自动清除状态 下面是详细对比和具体的例子主要讨论的是流处理下的情况。 over聚合over agg OVER 聚合通过排序后的范围数据为每行输入计算出聚合值。和 GROUP BY 聚合不同 OVER 聚合不会把结果通过分组减少到一行它会为每行输入增加一个聚合值结果是一个append流。  OVER 窗口的语法。 SELECTagg_func(agg_col) OVER ([PARTITION BY col1[, col2, ...]]ORDER BY time_colrange_definition),... FROM ... over聚合很少用到所以本地自己做了一个测试 测试sql如下 create table test_window_tab(region String,qa_id String,count_qa_id Bigint) COMMENT with(properties.bootstrap.servers ,json.fail-on-missing-field false,connector kafka,format json,topic test_window_tab);create table dwm_qa_score(,qa_id String   ,agent_id String,region String,saas_id String,version_timestamp bigint, ts as to_timestamp(from_unixtime(version_timestamp, yyyy-MM-dd HH:mm:ss)),event_time TIMESTAMP(3) METADATA FROM timestamp VIRTUAL,WATERMARK FOR ts AS ts - INTERVAL 10 SECOND) COMMENT with(properties.bootstrap.servers ,json.fail-on-missing-field false,connector kafka,format json,scan.startup.mode earliest-offset,topic dwm_qa_score);insert into test_window_tab(region,qa_id,count_qa_id)select region,qa_id,count(1)  over w as count_qa_idfrom dwm_qa_scorewindow w as(partition by region,qa_idorder by tsrows between 2 preceding and current row) dwm_qa_score这个topic现有数据 { qa_id: 123, agent_id: 497235295815123, region: TH, version_timestamp: 1709807228 } { qa_id: 123, agent_id: 497235295815123, region: TH, version_timestamp: 1709807228 } { qa_id: 123, agent_id: 497235295815123, region: TH, version_timestamp: 1709807228 } { qa_id: 123, agent_id: 497235295815123, region: TH, version_timestamp: 1709807228 } { qa_id: 123, agent_id: 497235295815123, region: TH, version_timestamp: 1709807228 } { qa_id: 1234, agent_id: 497235295815123, region: TH, version_timestamp: 1709807228 } 当读数据选择了offsetealiest-offset则运行程序会得到结果如下 {region:TH,qa_id:123,count_qa_id:1} {region:TH,qa_id:123,count_qa_id:2} {region:TH,qa_id:123,count_qa_id:3} {region:TH,qa_id:123,count_qa_id:3} {region:TH,qa_id:123,count_qa_id:3} {region:TH,qa_id:1234,count_qa_id:1} 这里注意 对每条数据都会返回一个聚合值由于我们是“rows between 2 preceding and current row“所以count_qa_id最多是3 如果此时往dwm_qa_score这个topic插入新数据 { qa_id: 1234, agent_id: 497235295815123, region: TH } 或者 { qa_id: 1234, agent_id: 497235295815123, region: TH,version_timestamp: null } 或者 { qa_id: 1234, agent_id: 497235295815123, region: TH,version_timestamp: 0 } 会发现flink作业中输出的record多了一条 但是在目标kafkatest_window_tab中没有新增结果 原因是我们插入的新数据中没有version_timestamp这一列为空或为0 如果往dwm_qa_score这个topic插入新数据 { qa_id: 1234, region: TH, version_timestamp: 1710145110 } 则可以看到对应目标kafkatest_window_tab中会新增结果数据 {region:TH,qa_id:1234,count_qa_id:2} 如果等一分钟后再次往dwm_qa_score这个topic插入新数据 { qa_id: 1234, region: TH, version_timestamp: 1710145110 } 则在目标kafkatest_window_tab中没有新增结果原因应该是数据过期被丢弃了watermark) 你可以在一个 SELECT 子句中定义多个 OVER 窗口聚合。然而对于流式查询由于目前的限制所有聚合的 OVER 窗口必须是相同的。 ORDER BY OVER 窗口需要数据是有序的。因为表没有固定的排序所以 ORDER BY 子句是强制的。对于流式查询Flink 目前只支持 OVER 窗口定义在升序asc的 时间属性 上。其他的排序不支持。 PARTITION BY OVER 窗口可以定义在一个分区表上。PARTITION BY 子句代表着每行数据只在其所属的数据分区进行聚合。 范围RANGE定义 范围RANGE定义指定了聚合中包含了多少行数据。范围通过 BETWEEN 子句定义上下边界其内的所有行都会聚合。Flink 只支持 CURRENT ROW 作为上边界。 有两种方法可以定义范围ROWS 间隔 和 RANGE 间隔 RANGE 间隔 RANGE 间隔是定义在排序列值上的在 Flink 里排序列总是一个时间属性。下面的 RANG 间隔定义了聚合会在比当前行的时间属性小 30 分钟的所有行上进行。 RANGE BETWEEN INTERVAL 30 MINUTE PRECEDING AND CURRENT ROWROW 间隔 ROWS 间隔基于计数。它定义了聚合操作包含的精确行数。下面的 ROWS 间隔定义了当前行  之前的 10 行也就是11行都会被聚合。 ROWS BETWEEN 10 PRECEDING AND CURRENT ROW常见错误 OVER windows ordering in stream mode must be defined on a time attribute.  这个报错是建表的时候需要指定时间语义的字段WATERMARK 是必须的而且WATERMARK所用字段必须是order by的时间字段例如下面用的是 order by load_date那么WATERMARK就要用load_date生成即WATERMARK FOR load_date AS load_date - INTERVAL 1 MINUTE object SqlOverRows02 {def main(args: Array[String]): Unit  {val settings  EnvironmentSettings.newInstance().inStreamingMode().build()val tEnv  TableEnvironment.create(settings)    tEnv.executeSql(|create table projects(|id int,|name string,|score double,|load_date timestamp(3),|WATERMARK FOR load_date AS load_date - INTERVAL 1 MINUTE|)with(|connector  kafka,|topic  test-topic,|properties.bootstrap.servers  server120:9092,|properties.group.id  testGroup,|scan.startup.mode  latest-offset,|format  csv|)|.stripMargin)tEnv.executeSql(|select| name,| max(score)|   over(partition by name|     order by load_date|     RANGE BETWEEN INTERVAL 10 SECOND PRECEDING AND CURRENT ROW )max_score,| min(score)|   over(partition by name|     order by load_date|     RANGE BETWEEN INTERVAL 10 SECOND PRECEDING AND CURRENT ROW )min_score,| current_time| from| projects|.stripMargin).print()} }分组聚合group agg Apache Flink 支持标准的 GROUP BY 子句来聚合数据。 SELECT COUNT(*) FROM Orders GROUP BY order_id 特点 1、聚合函数把多行输入数据计算为一行结果。例如有一些聚合函数可以计算一组行的 “COUNT”、“SUM”、“AVG”、“MAX”和 “MIN”。 2、对于流式查询重要的是要理解 Flink 运行的是连续查询永远不会终止会根据其输入表的更新来更新其结果表。对于上述查询每当有新行插入 Orders 表时Flink 都会实时计算并输出更新后的结果。  3、对于流式查询用于计算查询结果的状态可能无限膨胀。状态的大小取决于分组的数量以及聚合函数的数量和类型。例如MIN/MAX 的状态是重量级的COUNT 是轻量级的因为COUNT只需要保存计数值。 因此可以设置table-exec-state-ttl但是可能会影响查询结果的正确性因为状态超时会被丢弃。 注意 Flink 对于分组聚合提供了一系列性能优化的方法。更多参见性能优化包括MiniBatch 聚合、Local-Global 聚合、拆分 distinct 聚合、在 distinct 聚合上使用 FILTER 修饰符 、MiniBatch Regular Joins 窗口聚合window agg 窗口聚合是通过 GROUP BY 子句定义的其特征是包含 窗口表值函数 产生的 “window_start” 和 “window_end” 列必须包含否则就变成分组聚合等了。和普通的 GROUP BY 子句一样窗口聚合对于每个组会计算出一行数据。 SELECT ... FROM windowed_table -- relation applied windowing TVF GROUP BY window_start, window_end, ... 窗口聚合不产生中间结果只在窗口结束产生一个总的聚合结果另外窗口聚合会清除不需要的中间状态(watermark超过窗口endallowlateness,就会销毁窗口。 具体例子: SELECT window_start, window_end, SUM(price) AS total_price FROM TABLE(     TUMBLE(TABLE Bid, DESCRIPTOR(bidtime), INTERVAL 10 MINUTES)) GROUP BY window_start, window_end; ------------------------------------------------- |     window_start |       window_end | total_price | ------------------------------------------------- | 2020-04-15 08:00 | 2020-04-15 08:10 | 11.00 | | 2020-04-15 08:10 | 2020-04-15 08:20 | 10.00 | -------------------------------------------------

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/91027.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

私人做网站有什么用南京华夏天成建设有限公司网站

报错如下: 解决方案: 在组件.json文件加上"styleIsolation": "apply-shared",:

会计公司网站源码东湖网站建设

目录 一、万字论文,从0到1,只需1小时二、获取途径三、论文从81%降到1.9%四、内容是别人的,话是自己的五、AI工具 --> 中文论文降重六、论文降重小技巧 一、万字论文,从0到1,只需1小时 通过O…

入侵dedecms网站管理员密码asp.net网站sql权限设置

黑龙江省,位于中国最东北部,是我国位置最北、最东,纬度最高,经度最东的省份,气候为温带大陆性季风气候。黑龙江省土地总面积为47.3万平方公里(含加格达奇和松岭区),占全国土地总面积…

广东学校网站建设公司小程序code

目录 一、什么是 Node.js 二、Node.js下载 下载方式1:直接在首页下载(下载的是.msi后缀的安装包) 下载方式2:点击官网顶上的DOWNLOAD 三、Node.js安装 .zip后缀的安装步骤 .msi后缀的安装步骤 一、什么是 Node.js Node.js …

vs做网站怎么放视频讷河做网站公司

今早,一个存储过程,写过很多次的存储过程,随手一写,各种报错,各种纠结,网上一搜,有好多个都遇到,论坛上给出的结局答案,今早,一个存储过程,写过很…

网站开发设wordpress溢价

来源:微软丹棱街5号丹棱君有话说:这是一场解析了 AI 前世今生及未来应用图景的演讲,一场经济学家与科学家的问答,将会对撞出怎样的思想火花?6月13日,微软全球资深副总裁、微软亚太研发集团主席兼微软亚洲研…

本地wordpress建站做网站几天能学会

淘宝店内商品列表接口api代码对接如下: 1.公共参数 名称 类型 必须 描述 key String √ get请求方式拼接在url中,点击获取 api_name String √ api接口名称 cache String 默认否 result_type String 否 json lang String 默认cn 简…

网站静态化 好处建设网站的好公司

🔥学好办公自动化,帮你节省更多宝贵的时间 🔥这个专栏收录python办公自动化的实操案例,利用python实现高效的办公自动化 🔥实现excel,word,文件批处理等自动化操作 可以使用Python的pandas库来实现批量将xls文件另存为xlsx文件的功能。 【Excel自动化07】用pandas库…

网站首页设计过程毕业设计做系统网站好

图卷积神经网络GCN-笔记1.卷积是什么2.图卷积的源起3.空域卷积3.1消息传递网络MPNN3.2 图采样与聚合GraphSage4.频域卷积5.图结构的序列化-Patch-SAN从图(Graph)到图卷积(Graph Convolution):漫谈图神经网络模型 (二)(https://www.cnblogs.com/SivilTaram/p/graph_n…

企业网站优化搜行者seo做爰网站視屏

CRNN是OCR领域非常经典且被广泛使用的识别算法,其理论基础可以参考我上一篇文章,本文将着重讲解CRNN代码实现过程以及识别效果。 数据处理 利用图像处理技术我们手工大批量生成文字图像,一共360万张图像样本,效果如下:…

做论坛网站前段用什么框架好点爱网站查询挖掘工具

1025 除数游戏 小艾 和 小鲍 轮流玩游戏&#xff0c;小艾首先开始。 最初&#xff0c;黑板上有一个数字 n 。在每个玩家的回合中&#xff0c;该玩家做出的动作包括&#xff1a; 选择任意 x&#xff0c;使 0 < x < n 和 n % x 0 。将黑板上的数字 n 替换为 n - x 。 此…

龙岗建设网站哪一个做网站模版好用的

文章目录 一.CAN协议的基本特点1.1 特点1.2 电平标准1.3 基本的五个帧1.4 数据帧 二.数据帧解析2.1 帧起始和仲裁段2.2 控制段2.3 数据段和CRC段2.4 ACK段和帧结束 三.总线仲裁四.位时序五.STM32CAN控制器原理与配置5.1 STM32CAN控制器介绍5.2 CAN的模式5.3 CAN框图 六 手册寄存…

专做农产品的网站有哪些seo推广的优缺点

很多小伙伴因为不知道怎么使用原版&#xff0c;用的都是国内套壳的&#xff0c;国内套壳的有些价格不合适&#xff0c;如何是3.5的话只需要绑定虚拟信用卡就可以使用 想使用openai API key4.0的话你需要先开通ChatGPTplus&#xff0c;在绑定openai API key&#xff0c;绑定ope…

微信分享网站显示图片中国联通和腾讯

5.3 删除空间占用大的文件(夹) 5.3.1 hiberfil.sys 说明&#xff1a; 该文件是系统休眠文件。 对策&#xff1a; 使用CMD命令&#xff1a;powercfg -h off关闭休眠&#xff0c;然后重启电脑后该文件则会自动删除。但是电脑以后没有了休眠功能。读者可以根据实际情况进行取舍。…

淘宝卖东西如何在网站做宣传网站功能报价明细表

消息队列解决的问题 1. 解耦&#xff0c;通过消息队列实现应用之间解耦&#xff0c;模块儿之间解耦 2. 跨线程/进程通信&#xff0c;通过消息队列传递数据&#xff0c;实现不同线程/进程间通信 3. 提升系统稳定性&#xff0c;在高并发场景通过消息队列缓冲&#xff0c;可以实…

校园网站html模板网站建设公司 信科网络

LabVIEW柴油机安保监控系统 随着航运业的快速发展&#xff0c;确保船舶柴油机的安全稳定运行变得尤为重要。船舶柴油机故障不仅会导致重大的经济损失&#xff0c;还可能危及人员安全和环境。设计并开发了一套基于LabVIEW平台的柴油机安保监控系统&#xff0c;旨在通过实时监控…

做哪些网站可以赚钱的专业企业网站建设公司

1.登陆成功后&#xff0c;首先进入某一个数据库 (不是指数据库服务器)use t1; //t1是数据库名如图所示&#xff1a;2.在此数据库中建立数据库表2.1 先建立表结构(可以理解为表的列名&#xff0c;也就是字段名)在实际生产过程中&#xff0c;表结构是需要经过精心设计的。通用的语…

网站建设价位wordpress post id

AD3518 是一款内置 MOSFET 的单节锂电池保护芯片。该芯片具有非常低的功耗和非常低阻抗的内置 MOSFET。该芯片有充电过压&#xff0c;充电过流&#xff0c;放电过压&#xff0c;放电过流&#xff0c;过热&#xff0c;短路&#xff0c;电芯反接等各项保护等功能&#xff0c;确保…

网站修改关键词不收录产品推广广告语句

正题 题目链接:https://www.luogu.com.cn/problem/P7137 题目大意 有两个人&#xff0c;有nnn个蛋糕&#xff0c;第iii个蛋糕大小为aia_iai​。 每一次第一个人可以选择一个蛋糕把它切成任意大小的两份&#xff08;一份可以为空&#xff09;。 然后第二个人有mmm次机会优先…

查询网站旗下域名海外网络推广服务

东南大学财务处服务器存储-招标办公室东南大学财务处服务器、存储、防雷系统采购招标公告项目名称&#xff1a;标段一&#xff1a;一卡通数据库生产服务器、一卡通数据库容灾服务器标段二&#xff1a;一卡通系统刀片服务器标段三&#xff1a;一卡通存储设备标段四&#xff1a;一…