如何跑通第一个 SQL 作业

简介: 本文由阿里巴巴技术专家周凯波(宝牛)分享,主要介绍如何跑通第一个SQL。

一、SQL的基本概念

1.SQL 分类

SQL分为四类,分别是数据查询语言(DQL)、数据操纵语言(DML)、数据定义(DDL)语言和数据控制语言(DCL)。今天将介绍前三种语言的使用。

幻灯片04.png

接下来介绍几个基本概念。

2.SQL 开发

幻灯片05.png

Scripts,即SQL文本。在SQL文本里面可以写上文介绍的前三种语言;
Schema,即元数据。SQL里面需要使用的表和函数,是通过Schema进行定义的;
Artifacts,即UDF Jar包;

3.Catalog

在 Flink SQL里,Catalog是管理元数据的。Catalog通过Catalog.DB.Table来定位一张表。除了DB和Table,Catalog还能注册函数,如UDF、UDTF和UDAF。

幻灯片06.png

在Flink Catalog里,有三种Catalog实现:

● 第一个是GenericInMemoryCatalog,是内存版的Catalog。平常在使用 Flink SQL的时候,默认是内存版的Catalog。当程序运行结束,第二次重新运行的时候,会重新生成一个Catalog实例。
● 第二个是HiveCatalog,Flink里比较好的支持了HiveCatalog,可以从Hive HMS里读取元数据,同时也可以往Hive里注册表,写数据到Hive里面去。
● 第三个Catalog是 VVP平台里面开发的Catalog,即VvpCatalog,它实现了Flink Catalog的接口,底层是使用的数据库。

4.Deployment

Deployment是一个作业的描述,目前有两种任务类型,JAR和SQL。

幻灯片07.png

Deployment上有升级策略(Upgrade strategy)和恢复策略(Restore strategy)。Upgrade strategy是指Deployment运行后,用户可以对Deployment的参数进行修改,这个修改如何影响Deployment的运行就是由不同的升级策略决定的;Restore strategy 指启动 Flink任务时,是否从 Savepoint/Checkpoint进行恢复就是不同的恢复策略。

Flink的版本和配置,常用的Flink的参数都可以在这里进行配置。例如:Task Managers 数量,Jobmanager和Taskmanager 的 CPU 和内存等。

Deployment上除了作业描述外,还有期望状态和实际状态。期望状态是指用户所期望的目标状态,例如当要将运行中的作业停止时,期望状态就是Canceled;操作完成的实际运行状态就是实际状态。

总的来说,Deployment是一个任务的描述模板。VVP平台内部的状态机会根据Deployment的期望状态和实际状态来控制作业的实际运行。

5.Job

Deployment启动时会生成一个Job,这个Job对应一个具体的 Flink Job。同一时间,一个Deployment上只会有一个正在运行的Job。

二、SQL的语法说明

1.语法说明

首先看下图的语句,分别是创建源表和创建结果表。

幻灯片10.png

幻灯片11.png

下图是注册函数。函数的注册分为两步,第一步上传JAR包,然后在系统上可以勾选自动注册;第二种是使用 Flink 语法进行手工注册。

幻灯片12.png

使用函数有两种方式,第一是内置函数的使用,如下图UPPER是 Flink 自带的函数;第二种是自定义函数,像MyScalarFunc。

幻灯片13.png

在VVP平台里,也支持 Flink 里的Temporary Table,可以将它理解为临时表,只在当前会话周期内有效。在下图例子中,我们创建了两个Temporary Table,读取datagen_source表中的数据,输出到blackhole_sink表。

幻灯片14.png

下图是Temporary View的语法示例。前面两段是一样的临时表;第三条语句是创建了一个tmp_view,它代表从Datagen_source的查询。在Flink里面Temporary View可以理解为让SQL的书写变得更简单,它不会对数据进行一个持久化,和数据库里面View概念是不一样的。第四条语句是从 view里面读取数据并写入到sink表里。

幻灯片15.png

下图是Statement set的语法示例,这个语法目前在 Flink 1.11版本里还没有,但是在VVP平台做了一些支持。

幻灯片16.png

如上图,BEGIN STATEMENT SET和END这两个语句之间可以写多条 insert into语句。上图的例子是读取datagen_source 表往两张sink表同时写。这个语句提交后会启动一个完整的Flink Job,里面会有1个source和两个sink。

2.SQL的应用范围

幻灯片17.png

Create Table,它注册的表会写入系统Catalog里,在VVP平台上面会写到VvpCatalog中,并进行持久化。好处是适合多个query共享元数据。

Create Temporary Table,临时表。它会写到内存版的Catalog里,不会持久化。所以它适合不需要共享元数据的场景,只给当前query使用。

Create Temporary View,主要目的是简化SQL语句。如果不通过Create Temporary View,对于逻辑复杂的SQL写起来会相当复杂,可读性也很差。

Statement Set,适合需要输出到多个下游的场景。

三、SQL 实战

接下来向大家展示销量统计的实例。如下图所示,需求是统计每小时成交量。

幻灯片19.png

我们首先创建两张表,一个是源表,一个是结果表。下图是创建源表的语句,数据源来自kafka,然后定义watermark是5秒钟。

幻灯片20.png

下图是结果表,也是一个kafka表。

下图是查询语句,从源表读取数据后,会通过tumble window窗口聚合对数据做一个统计,这样就求出了每小时的成交量。

幻灯片22.png

1.实战演示

打开VVP的界面,左侧有SQL编辑器,在这个编辑器左边有三栏,第一栏是Scripts,写SQL文本的地方;第二栏是Schemas,用来定义元数据;第三栏是Artifacts, 用来注册UDF。

image.png

首先定义一张datagen_source的表。点击右上角的验证按钮,验证通过后点击旁边的运行。点击运行之后,可以在下面看到运行的结果,运行成功后点击左侧的Schemas,可以找到刚刚创建的datagen_source表。

image.png

然后再创建一张sink表,connector类型是blackhole。然后验证并运行。

image.png

这样两张表都已经注册到Catalog里面去了,默认的Catalog名字是VVP,Database名字是Default。

image.png

接下来就可以写SQL语句。比如说写一条INSERT INTO语句,写完之后点验证并运行。在运行这条INSERT INTO语句时,系统会提示是否要创建一个SQL作业,点击确认,补充名称等信息,SQL作业就创建好了。

image.png

点击启动这个作业,启动过程中可以在页面上看到关于这个作业的很多信息和配置。

image.png

2.UDF实战展示

UDF开发完成后会打一个JAR包,然后点SQL编辑器左侧的Artifacts,然后点“+”号,将JAR 包上传上来。

image.png

上传完毕,完善JAR 包名称等信息后,点确认完成。JAR包上传过程中,VVP系统会对JAR 包进行解析。解析之后系统会提示是否注册,勾选需要注册的内容,点击创建Function。

image.png

然后如下图,上面就是已注册的Function,下面是可用Function,可以选择继续注册或关掉窗口。

image.png

如果不需要这个函数了,可以在页面左侧找到已经注册的Function,点击右侧尾部图标,选择Drop Function。若想重新注册,有两种方法,第一可以点击管理Function;第二通过 Flink的注册函数手动注册。
用注册好的Function创建SQL作业。

在创建页面下拉可以看到很多高级配置,只修改自己需要的配置即可。

image.png

3.Temporary table的使用

上面的例子是注册在Catalog里的,如果不想每次都在Catalog里面进行注册,那就可以直接使用 Temporary table。

如下图将table的创建和INSERT INTO全部写在一起,这样就可以直接创建一个新的SQL作业,而不用提前在Catalog里注册了。

image.png

4.Temporary View

将前面Temporary View例子页面中的语句复制到VVP平台的SQL编辑器中,直接点击运行就可以创建一个作业。

image.png

5.Statement Set

将前面Statement Set例子页面中的语句复制到编辑器中,直接点击运行就可以创建一个作业。启动后,可以通过下图看到运行情况,这个任务从一个源表中读取数据输出到了两个不同的sink表中。

6.查询实战

将前面SQL 实战中创建源表、结果表和查询页面的语句分别复制粘贴到VVP平台的SQL编辑器并启动运行。从下图可以看到这个读写kafka的任务运行起来了。

image.png

 

 

作者:周凯波(宝牛),阿里巴巴技术专家

原文链接 

本文为阿里云原创内容,未经允许不得转载

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/514442.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

云原生DevOps的5步升级路径

简介: 究竟什么是云原生DevOps呢?我们认为:云原生DevOps是充分利用云原生基础设施,基于微服务/无服务架构体系和开源标准,语言和框架无关,具备持续交付和智能自运维能力,从而做到比传统DevOps更…

数据创新的四个陷阱

简介: 数据的重要性在当今已经无需在多言,所有的企业都意识到数据的重要性,都希望利用数据来驱动业务的发展。但是,很多企业信息化管理者依然存在对于数据智能,数据驱动的一些误解,这些误解会让企业的数据利…

Parallels 发布 Desktop 17版本,支持 Windows 11 和 macOS Monterey

Parallels Desktop 17 亮点速揽:性能提升,对图像效果加以改进、增强了 Windows 游戏体验,同时是全球首个在搭载 Apple M1 芯片的 Mac 上运行的 macOS Monterey 虚拟机,带来更为无缝的跨平台工作体验。 编辑 | 宋慧 头图 | Paralle…

如何将实时计算 Flink 与自身环境打通

简介: 如何使用实时计算 Flink 搞定数据处理难题?实时计算 Flink 客训练营产品、技术专家齐上阵,从 Flink的发展、 Flink 的技术原理、应用场景及行业案例,到开源Flink功能介绍和实时计算 Flink 优势详解,现场实操&…

一文知晓浪潮云海OS在SPEC Cloud测试中的调优实践!

日前,SPEC(Standard Performance Evaluation Corporation,即国际标准性能评测组织)公布了最新 Cloud IaaS 2018 Benchmark 测试成绩,在同规模测试场景下浪潮数据核心产品浪潮云海OS再次刷新世界纪录,性能得…

阿里云 EMR Delta Lake 在流利说数据接入中的架构和实践

简介: 为了消灭数据孤岛,企业往往会把各个组织的数据都接入到数据湖以提供统一的查询或分析。本文将介绍流利说当前数据接入的整个过程,期间遇到的挑战,以及delta在数据接入中产生的价值。 背景 流利说目前的离线计算任务中&…

怎么提升写代码的能力

简介: 对于程序员而言,我始终认为代码是展现能力的关键,一个优秀程序员写的代码,和一个普通程序员写的代码是很容易看出差别的,代码作为程序员的硬实力和名片的展示,怎么提升写代码的能力始终是一个关键的话…

发力LPWAN 升哲打磨数智城市物联网通信之“芯”

8月上旬,随着多项物联网芯片与通信领域技术发明专利证书的下发,升哲科技(SENSORO)已在低功耗广域物联网(LPWAN)及相关领域拥有近百项独家专利,突破国外专利封锁实现国产、自主、可控。这些专利技…

android studio证件照代码,Android 修图(换证件照背景,污点修复)

背景前段时间的一个周末,一个女生让我帮她换一下他的证件照背景,我又没带电脑。我又不好意思拒接,怎么办呢?应用商店下载一个证件照换背景的APP,瞬间换完,我正准备保存时,跳出来一个支付框&…

闲鱼是怎么让二手属性抽取准确率达到95%+的?

闲鱼是怎么让二手属性抽取准确率达到95%的? 先上效果 图1 - 二手属性抽取算法效果Demo(1) 背景 闲鱼作为一款C2X的app,站在商品发布的角度,闲鱼商品相对于淘宝商品的特点有: 轻发布导致商品信息不足 闲鱼采用图文描述的轻发布模…

代号红狗:那些站在微软云起点的中国创业者

作者:亲爱的数据 来源:亲爱的数据011996年的北京。上高中二年级的左玥,代表崇文区参加市一级"四通杯"青少年计算机程序设计竞赛,得了一等奖。据左玥回忆,在去参赛的路上,辅导老师还在吐槽&#x…

如何迁移 Flink 任务到实时计算

简介: 本文由阿里巴巴技术专家景丽宁(砚田)分享,主要介绍如何迁移Flink任务到实时计算 Flink 中来。 通常用户在线下主要使用 Flink run,这会造成一些问题,比如:同一个配置因版本而变化&#xf…

如何落地云原生DevOps?

简介: 什么是云原生DevOps?在阿里内部有怎样的实践?企业又该如何落地?阿里云云效专家团队提出了下一代精益产品开发方法体系——ALPD,提供了系统的云原生DevOps落地的方法支撑,帮助企业渐进式地迈入云原生D…

亚马逊独霸美国安云计算未来十年订单;英伟达推出首个元宇宙平台;华为云、天翼云会合并吗?...

NEWS本周新闻回顾亚马逊独霸美国安云计算未来十年订单,微软表示不服亚马逊AWS获得美国国家安全局100亿美元云计算合同。得知亚马逊拿下订单后,微软已向政府问责提交文件,提出抗议。最终……还是亚马逊笑到了最后英伟达推出全球首个元宇宙平台…

如何做好技术 Team Leader?

简介: 作为一个技术TL(Team Leader),除了自身技能,还会面临诸多团队管理上的困难和挑战。如何定义和明确团队的目标?怎样建立优秀的工程文化?让团队长期发挥战斗力和创新能力的核心是什么&#…

android应用控制百度地图,Android中应用百度地图API开发地图APP实例-显示百度地图...

场景效果在使用百度地图API之前需要先在百度地图开放平台中申请API_KEY申请API_KEY登录百度开放平台后找到控制台下的应用管理-创建应用依次输入应用名,应用类型选择Android SDK然后下面需要输入发布版SHA1和包名获取应用SHA1首先来到.Android文件所在的位置&#x…

数禾云上数据湖最佳实践

简介: 数禾科技从成立伊始就组建了大数据团队并搭建了大数据平台。并在ECS上搭建了自己的Cloudera Hadoop集群。但随着公司互联网金融业务的快速扩张发展,大数据团队承担的责任也越来越重,实时数仓需求,日志分析需求,即…

程序员只能吃“青春饭”?IT行业年龄焦虑如何破局?

2019 年搜狐科技《中国互联网简史》报告显示,国内近一半的程序员年龄在 25-29 岁之间,其次为 30-34岁,占比 24.6%,35 岁 -39 岁的程序员占比 6.1%,而 40岁 的程序员仅占 1.2%。由于程序员需要长时间面对电脑工作&#…

对容器镜像的思考和讨论

简介: 常言道,startup 有 startup 的好,大厂有大厂的好,那么大厂究竟好在哪呢?拿硅谷老牌大厂们 FLG 来说,如果要问最令人怀念的是什么?Free food 和基础设施(Infrastructure)一定是会上榜的&am…

android 高度上分权重,Android LinearLayout weight权重使用

在日常的开发过程中,我们通常或多或少会使用到LinearLayout的weight属性来进行权重设置,进而达到按比例显示布局的意图通常我们在使用时,会这样使用android:layout_width"match_parent"android:layout_height"match_parent&qu…