etl介绍与etl工具比较_ETL万岁

etl介绍与etl工具比较

提取转换负载是从一个数据系统中提取数据并加载到另一个数据系统中的过程。 涉及的数据系统称为源系统和目标系统。

来自源系统的数据形状与目标系统不匹配,因此需要进行一些转换以使其兼容,该过程称为Transformation 。 转换是由map / filter / reduce操作完成的。

为了处理数据系统之间的不兼容性,需要一些元数据。 哪种类型的元数据会有用?

将源数据转换成许多不同的形状以处理各种业务用例是非常普遍的,因此对于源系统使用描述 性元数据,对于目标系统使用描述性元数据是有意义的。

元数据在使系统向后向前兼容方面起着重要作用。



很多时候仅拥有元数据是不够的,因为某些源/目标系统数据太大或太小而无法容纳。

这是当变换变得有趣的情况。 这意味着某些值必须删除或设置为NULL或默认值,对此做出正确的决定对于转换的向后/向前兼容性非常重要。 我想说许多企业的成功还取决于如何解决这个问题! 如果正确完成,可以避免许多集成梦night。

到目前为止,我们只是在讨论单一源系统,但是在许多用例中,都需要来自其他系统的数据进行一些转换,例如将userid转换为name,派生新的列值,查找编码等等。

添加多源系统会增加转换的复杂性,以处理丢失的数据,陈旧的数据等。

随着数据系统的发展,今天不仅涉及关系存储,我们还看到键值存储,文档存储,图数据库,列存储,缓存,日志等。

新数据系统也已分发,因此这增加了转换复杂性的另一个维度。

我们的旧关系数据库也可以描述为它是使用ETL模式构建的,通过使用更改日志作为数据库所做的一切工作的源

关于ETL的神话之一是,它是批处理过程,但是随着Stream处理器(即Spark Streaming,Flink等)和Pub Sub系统(Kafka,Pulsur等)的出现,它会随着时间而改变。 这样可以在事件推送到源系统后立即进行转换。

流式流行语不要被太多带走,不
无论您使用哪个流处理器或发布子系统,但您仍然必须应对上述挑战或利用某些新平台来解决这一问题。

投资转换/业务逻辑,因为这是构建可维护和可扩展的成功系统的关键。

使其保持无状态,元数据驱动,处理重复/重试等,更重要的是编写Tests以在快速变化的时间内对其进行良好的维护。

下次当您对ETL流程有疑问时

您处理实时还是批量处理?

你的答案应该是

这是基于事件的处理。

ETL万岁

翻译自: https://www.javacodegeeks.com/2020/04/long-live-etl.html

etl介绍与etl工具比较

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/331284.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

漫画:高并发下的HashMap

转载自 玻璃猫 程序员小灰上一期我们介绍了HashMap的基本原理, 这一期我们来讲解高并发环境下,HashMap可能出现的致命问题。HashMap的容量是有限的。当经过多次元素插入,使得HashMap达到一定饱和度时,Key映射位置发生冲突的几率会…

jvm(11)-晚期(运行期)优化

【0】README 0.1)本文部分文字描述转自 “深入理解 jvm”,旨在学习 晚期(运行期)优化 的基础知识; 【1】概述 1)即时编译器(JITjust in time compiler)定义:为了提高…

java 新功能_Java 14的新功能

java 新功能2020年3月17日,Oracle发布了名为Java 14的Java新版本,其中包括许多新功能,工具,安全性,调试和更新的文档方面的改进。 但是,Oracle还向您提供Java的较旧版本,因为它具有向后兼容性&a…

漫画:什么是ConcurrentHashMap

转载自 玻璃猫 程序员小灰————————————————————————前两期我们讲解了HashMap的基本原理,以及高并发场景下存在的问题。没看过的小伙伴可以点击下面链接:漫画:什么是HashMap? 漫画:高并发下的H…

jvm(12)-java内存模型与线程

【0】README0.1)本文部分文字描述转自“深入理解jvm”,旨在学习“java内存模型与线程” 的基础知识;【1】概述1)并发处理的广泛应用是使得 Amdahl 定律代替摩尔定律称为计算机性能发展源动力的根本原因;2)A…

junit mockito_从工作中清除代码–使用JUnit 5,Mockito和AssertJ编写可执行规范

junit mockito可执行规范是也可以用作设计规范的测试。 通过启用通用语言(在DDD世界中,这也称为无处不在的语言 ),它们使技术和业务团队能够进入同一页面。 它们充当代码的未来维护者的文档。 在本文中,我们将看到一种…

漫画:什么是红黑树

转载自 玻璃猫 程序员小灰————————————二叉查找树(BST)具备什么特性呢?1.左子树上所有结点的值均小于或等于它的根结点的值。 2.右子树上所有结点的值均大于或等于它的根结点的值。 3.左、右子树也分别为二叉排序树。下图中这棵树…

jvm(13)-线程安全与锁优化

【0】README 0.1)本文部分文字转自“深入理解jvm”, 旨在学习 线程安全与锁优化 的基础知识; 0.2)本文知识对于理解 java并发编程非常有用,个人觉得,所以我总结的很详细; 【1】概述 【2】线程安…

apache ignite_Kubernetes集群上的Apache Ignite和Spring第3部分:测试应用程序

apache ignite在上一个博客中,我们为Ignite应用程序创建了Kubernetes部署文件。 在此博客上,我们将在Kubernetes上部署Ignite应用程序。 我将在此使用minikube。 让我们先构建 mvn clean install 我将创建一个简单的Docker映像,因此需要Doc…

什么是AES算法?(整合版)

转载自 玻璃猫 程序员小灰 假设有一个发送方在向接收方发送消息。如果没有任何加密算法,接收方发送的是一个明文消息:“我是小灰” 如果消息被中间人截获到,即使中间人无法篡改消息,也可以窥探到消息的内容,从而暴露了…

soapui 测试soap_使用SoapUI调用不同的安全WCF SOAP服务-基本身份验证,第二部分

soapui 测试soap在本系列的第一篇文章中,我们创建了一个基本的身份验证服务,以使用SoapUI进行调用。 因此,在第二篇文章中,我们将逐步演示如何使用此工具成功调用这种服务。 使用SoapUI的1-Basic WCF SOAP –创建新的SOAP项目 首…

如何获得即时编译器(JIT)的汇编代码(linux环境下)

【0】README0.1)本文主要解决如何在linux下获取即时编译器的汇编代码问题;0.2)本文部分内容转自:http://psy-lob-saw.blogspot.jp/2013/01/java-print-assembly.html1)给定java源代码// 单例模式(分析volat…

漫画:什么是SHA系列算法

转载自 玻璃猫 程序员小灰 SHA-1 SHA-1算法可以从明文生成160bit的信息摘要,示例如下: 给定明文:abcd SHA-1摘要:81FE8BFE87576C3ECB22426F8E57847382917ACF SHA-1 与 MD5的主要区别是什么呢? 1.摘要长度不同。 …

apache ignite_Kubernetes集群上的Apache Ignite和Spring第1部分:Spring Boot应用程序

apache ignite在之前的一系列博客中,我们在Kubernetes集群上启动了一个Ignite集群。 在本教程中,我们将使用先前在Spring Boot Application上创建的Ignite集群。 让我们使用Spring Boot创建我们的项目。 Spring Boot应用程序将连接到Ignite集群。 让我…

tomcat(1)一个简单的web server

【0】README 0.1)本文部分描述转自“深入剖析tomcat”, 旨在学习 一个简单的web server 的基础知识; 0.2)for complete source code, please visit https://github.com/pacosonTang/HowTomcatWorks/tree/master/chapter1 【1】…

漫画:什么是MD5算法

转载自 玻璃猫 程序员小灰 摘要哈希生成的正确姿势是什么样呢?分三步: 1.收集相关业务参数,在这里是金额和目标账户。当然,实际应用中的参数肯定比这多得多,这里只是做了简化。 2.按照规则,把参数名和参数…

idea快速生成crud_Java / Spring:如何快速生成完整的Swagger文档CRUD REST API

idea快速生成crud作为开发人员,我们在日常生活中经常面临的最繁琐的任务之一就是编写良好且易于理解的文档。 无论我们的文档只有几行来解释功能的核心功能,还是表明系统的来龙去脉的成熟文章都没关系。 重要的是,我们试图通过文档传达的信息…

漫画:如何破解MD5算法

转载自 玻璃猫 程序员小灰 在之前的漫画中,我们介绍了MD5算法的基本概念和底层原理,没看过的小伙伴们可以点击下面的链接:《漫画:什么是MD5算法?》 这一次,我们来讲解如何破解MD5算法。 设MD5的哈希函数是…

自定义类加载器(ClassLoader + URLClassLoader)

【0】README 0.1)本文主要对类加载器进行分析,且 URLClassLoader是 ClassLoader的子类; 0.2)关于如何设置类加载器的加载路径,参见 对servlet容器的补充 【1】URLClassLoader类加载器 1.1)URLClassLoad…

fork/join和线程池_从fork-join /线程池调用的Singelton bean中的访问spring请求范围缓存...

fork/join和线程池问题: 启用了Spring且其范围设置为Request的缓存需要由不在请求范围内的singleton bean访问。 解: Spring使您能够创建缓存,该缓存为请求范围保留数据。 例如 import org.springframework.cache.concurrent.ConcurrentMapC…