Hive的相关介绍

  • 目录
    • 前言:
    • 1、Hive简介
    • 2、Hive架构
    • 3、Hive与Hadoop的关系
    • 4、Hive与传统数据库对比
    • 5、Hive的数据存储
    • 总结:

目录

前言:

为什么使用Hive
直接使用hadoop所面临的问题
人员学习成本太高
项目周期要求太短
MapReduce实现复杂查询逻辑开发难度太大

使用Hive的优点:
操作接口采用类SQL语法,提供快速开发的能力。
避免了去写MapReduce,减少开发人员的学习成本。
扩展功能很方便。

1、Hive简介

1.1、什么是Hive
Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
1.2、Hive的特点

  • 可扩展 :
    Hive可以自由的扩展集群的规模,一般情况下不需要重启服务。
  • 延展性:
    Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数。
  • 容错:
    良好的容错性节点出现问题SQL仍可完成执行。

2、Hive架构

2.1、架构图
这里写图片描述
2.2、基本组成

  • 用户接口:包括 CLI、JDBC/ODBC、WebGUI。
  • 元数据存储:通常是存储在关系数据库如 mysql , derby中。
  • 解释器、编译器、优化器、执行器。

2.3、各组件的基本功能

  • 用户接口主要由三个:CLI、JDBC/ODBC和WebGUI。其中,CLI为shell命令行;JDBC/ODBC是Hive的JAVA实现,与传统数据库JDBC类似;WebGUI是通过浏览器访问Hive。

  • 元数据存储:Hive 将元数据存储在数据库中。Hive
    中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。

  • 解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS中,并在随后有 MapReduce 调用执行。

3、Hive与Hadoop的关系

Hive利用HDFS存储数据,利用MapReduce查询数据
这里写图片描述

4、Hive与传统数据库对比

这里写图片描述

总结:hive具有sql数据库的外表,但应用场景完全不同,hive只适合用来做批量数据统计分析。

5、Hive的数据存储

1、Hive中所有的数据都存储在 HDFS 中,没有专门的数据存储格式(可支持Text,SequenceFile,ParquetFile,RCFILE等)
2、只需要在创建表的时候告诉 Hive 数据中的列分隔符和行分隔符,Hive 就可以解析数据。
3、Hive 中包含以下数据模型:DB、Table,External Table,Partition,Bucket。

  • db:在hdfs中表现为${hive.metastore.warehouse.dir}目录下一个文件夹。
  • table:在hdfs中表现所属db目录下一个文件夹。
  • external table:外部表,与table类似,不过其数据存放位置可以在任意指定路径 普通表: 删除表后, hdfs上的文件都删了 External外部表删除后,hdfs上的文件没有删除, 只是把文件删除了。
  • partition:在hdfs中表现为table目录下的子目录 。
  • bucket:桶, 在hdfs中表现为同一个表目录下根据hash散列之后的多个文件, 会根据不同的文件把数据放到不同的文件中。

总结:

对于Hive来说,个人感觉只要知道以下几个知识点就算是达到和博主一样的小菜鸟的境界,后期可以通过专项学习来进化为“大鹏”:
1、Hive是什么,干什么用的。
2、理解Hive的工作原理。
3、熟练掌握Hql的编写,能够运用Hql进行简单的数据分析。
目前只想到了这些点,如有遗漏后续会接着补充。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/456713.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据结构实验之排序七:选课名单

数据结构实验之排序七:选课名单 Time Limit: 1000MS Memory Limit: 65536KB Submit Statistic Problem Description 随着学校规模的扩大,学生人数急剧增加,选课名单的输出也成为一个繁重的任务,我校目前有在校生3万多名&#xff0…

Java第五次作业--面向对象高级特性(抽象类和接口)

一、学习要点 认真看书并查阅相关资料,掌握以下内容: 掌握抽象类的设计掌握接口的设计理解简单工厂设计模式理解抽象类和接口的区别掌握包装类的应用掌握对象的比较方法和比较器的使用学习使用日期操作类学习匿名内部类的使用二、作业要求 发布一篇随笔&…

关于国内厂商的国际版杀毒软件

很多国内软件公司的杀毒软件都分为国内版和国际版,这二者有什么区别呢? 首先,这两个的团队是不一样的。国际版的团队大多收购,国内版为自研。例如百度杀毒的国际版就是原超级巡警的团队做的,而国内版是自己另起炉灶。…

gulp教程之gulp-minify-css【gulp-clean-css】

原文:http://www.ydcss.com/archives/41 简介: 使用gulp-minify-css压缩css文件,减小文件大小,并给引用url添加版本号避免缓存。重要:gulp-minify-css已经被废弃,请使用gulp-clean-css,用法一致…

大数据面试题总结(附答案)

文章目录前言hadoop相关试题Hive相关试题Hbase相关试题Storm相关试题Spark相关试题Java基础试题其他前言 最近由于要准备面试就开始提早看些面试、笔试题。以下是自己总结的一些经常出现、有价值的试题,包含hadoop、hive、hbase、storm、spark等。答案仅供参考&…

win7 IE11卸载后无法上网

今天某同事需要访问一个银行网站,必须使用IE8,我在win7中降级IE11,直接卸载了IE11和其语言包,发现IE8再也打不开网页了,每次打开都提示保存html网页。测试Google Chrome上网完全没有问题。IE8的internet选项等任何工具菜单点击均无反应&#…

关于django的模板

模板 问题 如何向请求者返回一个漂亮的页面呢? 肯定需要用到html、css,如果想要更炫的效果还要加入js,问题来了,这么一堆字段串全都写到视图中,作为HttpResponse()的参数吗?这样定义就太麻烦了吧&#x…

Hbase简介及常用命令相关知识总结

文章目录目录前言:1.Hbase简介1.1、什么是Hbase1.2、与传统数据库的对比1.3、Hbase集群中的角色2、Hbase数据模型3、Hbase命令总结:目录 前言: 对于Hbase来说,由于其是基于列的数据库,所以比传统的数据库快许多&…

Django中模型类 属性-学习笔记

定义属性 Django根据属性的类型确定以下信息: 当前选择的数据库支持字段的类型渲染管理表单时使用的默认html控件在管理站点最低限度的验证 django会为表创建自动增长的主键列,每个模型只能有一个主键列,如果使用选项设置某属性为主键列后d…

Angular Redux

Angular Redux 转载于:https://www.cnblogs.com/skating/p/6185878.html

AtomicInteger相关类

在java6以后我们不但接触到了Lock相关的锁,也接触到了很多更加乐观的原子修改操作,也就是在修改时我们只需要保证它的那个瞬间是安全的即可,经过相应的包装后可以再处理对象的并发修改,以及并发中的ABA问题,本文讲述At…

Storm入门简介

目录前言:1、Storm简介2、Storm与Hadoop的区别3、Storm核心组件4、Storm编程模型5、流式计算一般架构图(重要)总结: 目录 前言: 在介绍Storm之前,先介绍下离线计算。 离线计算:批量获取数据…

项目完成

完成示例项目 现在还需要的代码包括三个方面,三个方面顺序不分先后。 1.定义视图2.定义URLconf3.定义模板 定义视图 编写booktest/views.py文件如下: from django.shortcuts import render from booktest.models import BookInfo#首页,展…

前端模板预编译技术

什么是前端模板预编译 前端模板预编译通过预编译技术让前端模板突破浏览器限制,实现后端模板一样的同步“文件”加载能力。它采用目录来组织维护前端模板,从而让前端模板实现工程化管理,最终保证前端模板在复杂单页 web 应用下的可维护性。同…

Python如何生成windows可执行的exe文件

打包工具 pyinstaller 安装pyinstaller 如果你的网络稳定,通常直接使用下面的命令安装即可: pip install pyinstaller 当然了,你也可以下载pyinstaller源码包,然后进入包目录执行下面的命令,同样可以安装&#xff…

招商银行信用卡中心华泰证券暑期实习软开笔试小结

白菜自动化小硕一枚,18届,下学期就正式要找工作了,没有实习经验,感觉心慌慌。现在学校里已经开始各种提前招实习,内推了,so暑假想提前试试水,投一投暑期实习。 看到心水的单位就投一投&#xff…

理想的程序猿

出处 | http://guoze.me 最近看到的一篇不错的文章,分享一下。 我算是靠坑蒙拐骗进了程序员的门,然后一路狂奔。26岁之前几乎没有任何写代码的经验,研究生毕业却意外选择了一家不可能提供培训的初创公司,在每日担忧公司倒闭、害…

node08-express

目录:node01-创建服务器 node02-util node03-events node04-buffer node05-fs node06-path node07-http node08-express node09-cookie express模块: 1 /*2 * express是一个应用框架3 * 1、路由4 * 2、中间件5 * 3、模板引擎6 * */7 8 var express requ…

【python】1. 两数之和

给定一个整数数组 nums 和一个目标值 target,请你在该数组中找出和为目标值的那 两个 整数,并返回他们的数组下标。 你可以假设每种输入只会对应一个答案。但是,你不能重复利用这个数组中同样的元素。 示例: 给定 nums [2, 7, 11, 15], t…

The user specified as a definer (#39;root#39;@#39;%#39;) does not exist

通常是因为root用户对全局host无訪问权限。因此仅仅要给root用户加入一个訪问权限就可以。解决的方法: 登陆mysql 。运行 mysql -u root -pPasswd mysql >grant all privileges on *.* to root"%" identified by "Passwd…