1.课程目标


2.电商行业与电商系统介绍







3.数仓项目整体技术架构介绍





4.数仓项目架构-kylin补充

5.数仓具体技术介绍与项目环境介绍


6.kettle的介绍与安装





7.kettle入门案例

这个连线是点击shift键,然后鼠标左键拖动


ctrl+s保存一下

csv输入配置




Excel输出配置


配置完
Ctrl+s保存一下


8.kettle输入组件之JSON输入与表输入
JSON输入









==========================================================
表输入


放到下面这个地方











查看主机地址






输出成功

但有些字段的格式有点问题
我们需要在这里控制一下

如果想让上面设置的MySQL连接可以重复使用



9.kettle输入组件之生成记录组件








10.kettle输出组件之文本文件输出







如果我们不想要头数据
则


防止中文乱码问题,还要设置编码

11.kettle输出组件之表输出、插入更新、删除组件
表输出






这里kettle会帮我们创建表





插入更新




上面就是认为当id相同时,这两个记录就算同一个记录
我们先看一下原先的数据是什么样子


然后启动

插入更新成功

删除





删除成功

12.kettle整合hadoop














最好重启一下




这里的bigdata-37就是下面的newhadoopcluster
13.Hadoop file input组件






上面就是我们的hdfs集群的路径






14.Hadoop file output组件







注意这里的编码要改成Linux对应的编码




15.Kettle整合Hive









这里我们已经创建好了
我们还是清空一下,重新创建一下


为空
下面创建文件



创建完加载到hive






16.Kettle-Hive表输入组件











17.Kettle-Hive表输出组件









执行成功,但这里速度特别特别的慢