漫画:什么是数据仓库

转载自 玻璃猫 算法与数据结构

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg


640?wx_fmt=png

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

一个故事

在很久很久以前,世界上生活着许多种族,有人类,有矮人,有精灵......他们有着不同的信仰,不同的文化,彼此相安无事。可是,有一个猥琐男却偏偏想要统治整个世界。

640?wx_fmt=jpeg

如何统治这么多不同文化信仰的种族呢?猥琐男想出一个馊主意,打造出几枚拥有魔力的戒指,免费送给不同种族的领袖,让他们可以更好地统治各自的族人。

640?wx_fmt=jpeg

当各个种族的领袖美滋滋地戴上各自的魔戒,走上人生巅峰的时候,猥琐男又打造出一枚独一无二的至尊魔戒。他利用至尊魔戒的力量控制了所有的魔戒,从而控制了各个种族的领袖,继而控制了整个世界。

640?wx_fmt=jpeg

这个故事告诉我们:数据库和数据仓库之间的关系。

如果说,那个世界的每一个生命个体都是一条数据记录,那么普通的魔戒的地位就好比是数据库,而至尊魔戒的地位就好比是数据仓库。

640?wx_fmt=jpeg

640?wx_fmt=jpeg

什么是数据仓库?

数据仓库,英文名称Data Warehouse,简写为DW。数据仓库顾名思义,是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,对多样的业务数据进行筛选与整合。它为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。

数据仓库的输入方是各种各样的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。

640?wx_fmt=png

那么,数据仓库都有什么特点呢?

1.主题性

不同于传统数据库对应于某一个或多个项目,数据仓库根据使用者实际需求,将不同数据源的数据在一个较高的抽象层次上做整合,所有数据都围绕某一主题来组织。

这里的主题怎么来理解呢?比如对于滴滴出行,“司机行为分析”就是一个主题,对于链家网,“成交分析”就是一个主题。

2.集成性

数据仓库中存储的数据是来源于多个数据源的集成,原始数据来自不同的数据源,存储方式各不相同。要整合成为最终的数据集合,需要从数据源经过一系列抽取、清洗、转换的过程。

3.稳定性

数据仓库中保存的数据是一系列历史快照,不允许被修改。用户只能通过分析工具进行查询和分析。

4.时变性

数据仓库会定期接收新的集成数据,反应出最新的数据变化。这和特点并不矛盾。

640?wx_fmt=jpeg

640?wx_fmt=jpeg

什么是ETL?

ETL的英文全称是 Extract-Transform-Load 的缩写,用来描述将数据从来源迁移到目标的几个过程:

1.Extract,数据抽取,也就是把数据从数据源读出来。

2.Transform,数据转换,把原始数据转换成期望的格式和维度。如果用在数据仓库的场景下,Transform也包含数据清洗,清洗掉噪音数据。

3.Load  数据加载,把处理后的数据加载到目标处,比如数据仓库。



640?wx_fmt=png

主流的数据仓库有哪些?

640?wx_fmt=jpeg

640?wx_fmt=jpeg

这个Hive又是何方神圣呢?640?wx_fmt=png

确切地说,Hive是基于Hadoop的数据仓库工具,可以对存储在HDFS上的文件数据集进行查询和分析处理。Hive对外提供了类似于SQL语言的查询语言 HiveQL,在做查询时将HQL语句转换成MapReduce任务,在Hadoop层进行执行。

640?wx_fmt=png

这里有几个名词需要解释:

1.HDFS

Hadoop的分布式文件系统,在这里作为数据仓库的存储层。图中的Data Node就是HDFS的众多工作节点。

2.MapReduce

一种针对海量数据的并行计算模型,可以简单理解为对多个数据分片的数据转换和合并。

关于HDFS和MapReduce的具体知识,这一期暂时不做展开,小灰会在后续的漫画中详细介绍。

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg


640?wx_fmt=jpeg


640?wx_fmt=jpeg


Teradata数据仓库配备性能最高、最可靠的大规模并行处理 (MPP) 平台,能够高速处理海量数据,其性能远远高于Hive。

它使得企业可以专注于业务,无需花费大量精力管理技术,因而可以更加快速地做出明智的决策,实现 ROI(投资回报率) 最大化。

640?wx_fmt=jpeg

640?wx_fmt=jpeg


640?wx_fmt=jpeg


几点补充:

1.对于大数据方向,小灰也仅仅了解皮毛,漫画中若存在错误或是描述不全面的地方,还请大家多多指正补充。

2.关于Teradata,小灰曾经有幸在这里工作过,虽然不是从事数据仓库领域。Teradata 的确是一款很强大的商业数据仓库,对此有兴趣的同学,可以百度学习一下具体知识。


—————END—————






640?wx_fmt=jpeg



640?wx_fmt=jpeg



640?wx_fmt=jpeg



640?wx_fmt=jpeg



640?wx_fmt=jpeg




640?wx_fmt=png




640?wx_fmt=jpeg



640?wx_fmt=jpeg



640?wx_fmt=jpeg




一个故事


在很久很久以前,世界上生活着许多种族,有人类,有矮人,有精灵......他们有着不同的信仰,不同的文化,彼此相安无事。可是,有一个猥琐男却偏偏想要统治整个世界。


640?wx_fmt=jpeg



如何统治这么多不同文化信仰的种族呢?猥琐男想出一个馊主意,打造出几枚拥有魔力的戒指,免费送给不同种族的领袖,让他们可以更好地统治各自的族人。


640?wx_fmt=jpeg



当各个种族的领袖美滋滋地戴上各自的魔戒,走上人生巅峰的时候,猥琐男又打造出一枚独一无二的至尊魔戒。他利用至尊魔戒的力量控制了所有的魔戒,从而控制了各个种族的领袖,继而控制了整个世界。


640?wx_fmt=jpeg



这个故事告诉我们:数据库和数据仓库之间的关系。


如果说,那个世界的每一个生命个体都是一条数据记录,那么普通的魔戒的地位就好比是数据库,而至尊魔戒的地位就好比是数据仓库。



640?wx_fmt=jpeg



640?wx_fmt=jpeg



什么是数据仓库?


数据仓库,英文名称Data Warehouse,简写为DW。数据仓库顾名思义,是一个很大的数据存储集合,出于企业的分析性报告和决策支持目的而创建,对多样的业务数据进行筛选与整合。它为企业提供一定的BI(商业智能)能力,指导业务流程改进、监视时间、成本、质量以及控制。


数据仓库的输入方是各种各样的数据源,最终的输出用于企业的数据分析、数据挖掘、数据报表等方向。



640?wx_fmt=png

 



那么,数据仓库都有什么特点呢?


1.主题性

不同于传统数据库对应于某一个或多个项目,数据仓库根据使用者实际需求,将不同数据源的数据在一个较高的抽象层次上做整合,所有数据都围绕某一主题来组织。

这里的主题怎么来理解呢?比如对于滴滴出行,“司机行为分析”就是一个主题,对于链家网,“成交分析”就是一个主题。


2.集成性

数据仓库中存储的数据是来源于多个数据源的集成,原始数据来自不同的数据源,存储方式各不相同。要整合成为最终的数据集合,需要从数据源经过一系列抽取、清洗、转换的过程。


3.稳定性

数据仓库中保存的数据是一系列历史快照,不允许被修改。用户只能通过分析工具进行查询和分析。


4.时变性

数据仓库会定期接收新的集成数据,反应出最新的数据变化。这和特点并不矛盾。



640?wx_fmt=jpeg



640?wx_fmt=jpeg



什么是ETL?


ETL的英文全称是 Extract-Transform-Load 的缩写,用来描述将数据从来源迁移到目标的几个过程:


1.Extract,数据抽取,也就是把数据从数据源读出来。


2.Transform,数据转换,把原始数据转换成期望的格式和维度。如果用在数据仓库的场景下,Transform也包含数据清洗,清洗掉噪音数据。


3.Load  数据加载,把处理后的数据加载到目标处,比如数据仓库。



640?wx_fmt=png




主流的数据仓库有哪些?


640?wx_fmt=jpeg



640?wx_fmt=jpeg



这个Hive又是何方神圣呢?640?wx_fmt=png


确切地说,Hive是基于Hadoop的数据仓库工具,可以对存储在HDFS上的文件数据集进行查询和分析处理。Hive对外提供了类似于SQL语言的查询语言 HiveQL,在做查询时将HQL语句转换成MapReduce任务,在Hadoop层进行执行。



640?wx_fmt=png



这里有几个名词需要解释:


1.HDFS

Hadoop的分布式文件系统,在这里作为数据仓库的存储层。图中的Data Node就是HDFS的众多工作节点。


2.MapReduce

一种针对海量数据的并行计算模型,可以简单理解为对多个数据分片的数据转换和合并。



关于HDFS和MapReduce的具体知识,这一期暂时不做展开,小灰会在后续的漫画中详细介绍。



640?wx_fmt=jpeg



640?wx_fmt=jpeg



640?wx_fmt=jpeg



640?wx_fmt=jpeg



640?wx_fmt=jpeg



Teradata数据仓库配备性能最高、最可靠的大规模并行处理 (MPP) 平台,能够高速处理海量数据,其性能远远高于Hive。


它使得企业可以专注于业务,无需花费大量精力管理技术,因而可以更加快速地做出明智的决策,实现 ROI(投资回报率) 最大化。



640?wx_fmt=jpeg



640?wx_fmt=jpeg



640?wx_fmt=jpeg



几点补充:


1.对于大数据方向,小灰也仅仅了解皮毛,漫画中若存在错误或是描述不全面的地方,还请大家多多指正补充。


2.关于Teradata,小灰曾经有幸在这里工作过,虽然不是从事数据仓库领域。Teradata 的确是一款很强大的商业数据仓库,对此有兴趣的同学,可以百度学习一下具体知识。




—————END—————


640?wx_fmt=png


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/331114.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

SpringMVC_初级总结

1.SpringMVC的工作原理 浏览器发出一个http请求给服务器,如果匹配DispatcherServlet的请求映射路径(在web.xml中指定),服务器将请求转交给DispatcherServlet.DipatcherServlet接收到这个请求之后,根据请求的路径&#…

tomcat中配置jndi数据源以便spring获取

【0】README0)intro to jndi, plase visit intro to jndi;1)本文译自 Configuring Spring MVC JdbcTemplate with JNDI Data Source in Tomcat;2)本文旨在分析如何通过springmvc 获取 JNDI 数据源 以连接到…

Machine Learning:十大机器学习算法

转载自 Machine Learning:十大机器学习算法摘要: - 机器学习算法分类:监督学习、无监督学习、强化学习 - 基本的机器学习算法:线性回归、支持向量机(SVM)、最近邻居(KNN)、逻辑回归、决策树、k平均、随机森林、朴素贝叶斯、降维、梯度增强 机…

Java的值传递解析

值传递与引用传递 最近学基础的时候,老师讲了值传递和引用传递,这个问题一直不太明白,上网查了很多资料,按照自己的理解整理了一遍,发现之前不太明白的地方基本上想明白了,如有不正确的地方,欢…

spring(13)缓存数据

【0】README1)本文部分文字描述转自:“Spring In Action(中/英文版)”,旨在review “spring(13)缓存数据” 的相关知识;2)缓存:缓存可以存储经常会用到的信息,这样每次需…

漫画:什么是分布式事务

转载自 漫画:什么是分布式事务?————— 第二天 —————————————————假如没有分布式事务 在一系列微服务系统当中,假如不存在分布式事务,会发生什么呢?让我们以互联网中常用的交易业务为例子&#…

Spring4.2.6+SpringMVC4.2.6+MyBatis3.4.0 整合

【0】README0)本文旨在 review Spring4.2.6SpringMVC4.2.6MyBatis3.4.0 整合过程;1)项目整合所涉及的源代码,please visit https://github.com/pacosonTang/MyBatis/tree/master/spring4mvc_mybatis32)由于晚辈我还不…

ibatis(0)ibatis 与 mybatis 简述

【0】README:1)本文旨在给出 ibatis 与 mybatis 简述,简述内容转自 如下链接;【1】main contents1)apache offical declarationhttp://ibatis.apache.org/.apache ibatis is retired at the apache software foundation (2010/06/…

Java面试大纲

转载自 金三银四跳槽季,Java面试大纲跳槽时时刻刻都在发生,但是我建议大家跳槽之前,先想清楚为什么要跳槽。切不可跟风,看到同事一个个都走了,自己也盲目的面试起来(期间也没有准备充分)&#x…

ibatis(1)ibatis的理念

【0】README1)本文部分内容转自 “ibatis in action”,旨在 review “ibatis的理念” 的相关知识;【1】结合所有优秀思想的混合型解决方案在现实世界中,混合型解决方案随处可见。将两个看上去相悖的思想在中间处巧妙结合&#xff…

究竟啥才是互联网架构“高并发”

转载自 究竟啥才是互联网架构“高并发”一、什么是高并发 高并发(High Concurrency)是互联网分布式系统架构设计中必须考虑的因素之一,它通常是指,通过设计保证系统能够同时并行处理很多请求。高并发相关常用的一些指标有响应时间…

ibatis(2)ibatis是什么

【0】README1)本文部分内容转自 “ibatis in action”,旨在 review “ibatis是什么” 的相关知识;2)intro to ibatis: ibatis 就是数据映射器,Martin Fowler在《企业应用架构模式》中,对 data m…

究竟啥才是互联网架构“高可用”

转载自 究竟啥才是互联网架构“高可用”一、什么是高可用 高可用HA(High Availability)是分布式系统架构设计中必须考虑的因素之一,它通常是指,通过设计减少系统不能提供服务的时间。 假设系统一直能够提供服务,我们说…

maven(3)maven3.3.9使用入门

【0】README1)maven 安装step1)检查 jdk 是否安装且 环境变量 JAVA_HOME 是否设置;step2)download maven: https://maven.apache.org/download.cgi?Preferredftp://mirror.reverse.net/pub/apache/step3)…

TCP接入层的负载均衡、高可用、扩展性架构

转载自 TCP接入层的负载均衡、高可用、扩展性架构 一、web-server的负载均衡 互联网架构中,web-server接入一般使用nginx来做反向代理,实施负载均衡。整个架构分三层: 上游调用层,一般是browser或者APP 中间反向代理层&#xff…

使用poi统计工作职责

1 创建一个新的sheet工作页 Sheet job workbook.createSheet("工作职责统计"); 2 查询工作职责问题选项列表&#xff0c;并设置第一行倒出时间 List<Syslistconfig> listconfigs syslistconfigDao.listConfig(29); //工作职责问题选项列表job.createRow(0)…

漫画:什么是字典序算法

转载自 漫画&#xff1a;什么是字典序算法&#xff1f;算法题目&#xff1a; 给定一个正整数&#xff0c;实现一个方法来求出离该整数最近的大于自身的“换位数”。 什么是换位数呢&#xff1f;就是把一个整数各个数位的数字进行全排列&#xff0c;从而得到新的整数。例如53241…

mybatis_user_guide(2)mybatis3.4.0快速入门

【0】README0&#xff09;以下部分内容转自&#xff1a;“mybatis v.3.4.0 User Guide”&#xff1b;1&#xff09;本文旨在梳理 如何 构建 mybatis 环境&#xff0c;与 db 连接&#xff0c;且采用 JUnit 搭建其测试用例&#xff1b;2&#xff09;本文的环境配置都是基于纯 my…

jQuery中的几个案例:隔行变色、复选框全选和全不选

1 表格隔行变色 1 技术分析&#xff1a; 1 &#xff09;基本过滤选择器&#xff1a; odd: even: 2 &#xff09;jq添加和移除样式&#xff1a; addClass(); removeClass(); 2 代码实现 <script src"js/jquery1.11.3/jquery.min.js" type"text/javasc…

从 Linux 源码看 Socket 的阻塞和非阻塞

转载自 从 Linux 源码看 Socket 的阻塞和非阻塞笔者一直觉得如果能知道从应用到框架再到操作系统的每一处代码&#xff0c;是一件Exciting的事情。大部分高性能网络框架采用的是非阻塞模式。笔者这次就从linux源码的角度来阐述socket阻塞(block)和非阻塞(non_block)的区别。 本…