hbase 概念

在hbase里面有几个通俗的名称会经常出现

1)Hregion = region

2)Hregionserver = regionserver

3)Hmaster = master

4)Hmamstore = memstore

5)Hfile = storeFile

 

1、什么是hbase?

1)它是基于稀疏的、分布式的、持久化的、多维有序映射,它基于行健、列簇、时间戳建立索引

2)构建在hdfs之上的分布式列式键值存储系统,hbase内部管理的文件存储在hdfs中。

  

2、有什么特点?

1)不介意数据类型,允许动态的、灵活的数据模型,并不限制存储数据的种类。因此他可以自如的存储结构化和半结构化的数据。

2)它不要sql语音,不强调数据之间的关系

3)它不允许跨行的事物,可以在一行的某一列存储一个整数,而在另一行的同一列存储一个字符串

4)它被设计在一个服务器集群上运行,而不是单台服务器。这就意味着是一种强大的、可扩展的数据使用方式。

 

3、列式存储

列式存储的基础:对于特定的查询,不是所有的值都是必须的。

1)以列为单位聚合数据,然后将列值顺序的存入磁盘

2)数据类型一致,数据特征相似,更利于压缩

3)大量降低系统I/O

 

 

4、HBASE特性

1)容量巨大:单表可以有百亿行,百万列

2)面向列

3)稀疏性:空值不占用存储空间

4)扩展性:由hdfs决定,热扩展

5)高可用性:WAL和Replication机制;hdfs;zookeeper

6)共性能:LSM数据结构;Rowkey有序排列

7)无模式

8)数据多版本

9)数据类型单一

10)TTL

 

5、client

1)包含访问hbase的接口,并维护cache来加快对hbase的访问

2)通过rpc机制和master,region server通信

 

6、zookeeper

1)保证任何时候,集群中只有一个master

2)存储所有region的寻址入口

3)实时监控region server的上下线信息。并通知给master

4)存储hbase元数据信息

5)hbase中可以启动多个Hmaster,通过zookeeper的master election机制保证总有一个master运行

 

7、HMaster主要负责:table、region管理工作

1)管理用户对table的增删改查

2)管理regionserver的负载均衡,跳转region分布

3)在region分裂后,负责新region的分配

4)在regionserver死机后,负责失效regionserver上的region迁移

 

(由于master只维护表和region的元数据,而不参与表数据IO的过程,master下线仅导致所有元数据的修改被冻结(无法创建删除表,无法修改表的schema,无法进行region的负载均衡,无法处理region上下线,无法进行region的合并,唯一例外的是region的split可以正常进行,因为只有region server参与),表的数据读写还可以正常进行。

因此master下线短时间内对整个hbase集群没有影响。)

 

8、regionserver:主要负责响应用户I/O请求,向hdfs文件系统中读写数据

1)管理了一系列Hregion对象,每个Hregion对应了table中的region

2)Hregion由多个Hstore组成,每个Hstore对应了table中的一个column Family的存储

每个column Family其实就是一个集中的存储单位,简称Hstore

3)regionserver维护region,处理对这些region的IO请求

4)regionserver负责切分在运行过程中变得过大的region

5)regionserver提供行级锁

 

注:

1)Hregionserver:Hregion:Hstore = Column Family

2)Hstore:

- memStore:用户首先先写入MemStore。(flush操作)

- StoreFile:Hfile(compact合并,split操作)

3)hbase只有增加数据,所有更新和删除都是在compact过程中进行的。

4)用户写操作只要写入内存就可以立即返回,保证I/O高性能

5)同一台rs上的所有region共享相同的Hlog Files

6)每个update(或者说edit)都会被写到log,当通知客户端成功后,rs把数据再加载到内存中。

 

9、region是什么?

1)region按大小分割的,每个表开始只有一个region,随着数据增多,region不断增大,当增大到一个阀值的时候,region就会等分两个新的region,只会就会越来越多。

2)本质上是以行键排序的连续存储的区间

3)region最佳大小:1GB~2GB

4)regionserver:10~1000个region

5)不同的region分布到不同regionserver上

6)每个Hregion保存某段连续的数据,从开始主键(startRow)到结束主键(endRow),通过Hregion从Hadoop的分布式文件系统上数据

 

region虽然是分布存储的最小单位,但并不是存储的最小单位

1)一个region由一个或者多个store组成,每个store保存一个 columns family

2)每个store又由一个memstore和0个至多个storeFile组成

3)memstore存储在内存中,storeFile存储在hdfs上

 

 

10、Hstore是什么?

Hstore:Hstore存储是Hbase存储的核心,由memstore和storeFile组成。

1)Hmemcache:内存中的缓存,保存着最近更新的数据,如果Hmemcache没有数据,将从hstores获取磁盘上的数据,每个列簇会有一个hstore集合,每个集合包含多个Hstorefiles文件(b+数结构)

2)Hregion定期调用flushcache()缓存里的内容写入到文件中,每次调用产生一个新的文件Hstorefile文件,从一个hstore或数据会访问所有的Hstotefile,很耗时,hstore.compact可以完成小文件到达文件的合并

 

11、Hlog是什么?

磁盘上的操作记录文件,记录这所有的更新操作,数据写入Hlog后,commit()调用才会返回给客户端。

数据的更新操作最先被记录在Hmemcache和Hlog中

 

12、Row key

行键,table的主键,Table中的记录按照Row key排序。类型为Byte array

1)不宜过长

2)分布均匀

 

13、Column Family

列族,table水平方向有一个或者多个Column Family组成,一个Column Family中可以由任意多个Column组成

 

14、Cloumn

列 格式为:familyName:columnName

列名称是编码在cell中的

不同的cell可以拥有不同的列

 

15、Version Number

版本号。默认值是时间戳。类型为long

 

16、Value(Cell)

具体的值。类型为Byte array

 

转载于:https://www.cnblogs.com/gentlemanhai/p/10354550.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/449980.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

beta冲刺第三天

团队成员 郑西坤 031602542 (队长) 陈俊杰 031602504陈顺兴 031602505张胜男 031602540廖钰萍 031602323雷光游 031602319吴志鸿 0316206341.昨天的困难 陈顺兴:理解别人的代码 廖钰萍: 吴志鸿:无 雷光游: …

多线程详解

1. 进程与线程有那些区别和联系?   每个进程至少需要一个线程。 进程由两部分构成:进程内核对象,地址空间。线程也由两部分组成:线程内核对象,操作系统用它来对线程实施管理。线程堆栈,用于维…

AirPods的自动连接配对原理

首次连接 打开装有 AirPods 的充电盒,并将它放在 iPhone 旁边。此时你的 iPhone 上将出现设置动画。轻点「连接」,然后轻点「完成」。 就这么简单,而且会自动设置,实现与已使用同一 Apple ID 登录 iCloud 的任一支持设备搭配使用…

Linux chmod命令

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 Linux/Unix 的文件调用权限分为三级 : 文件拥有者、群组、其他。利用 chmod 可以藉以控制文件如何被他人所调用。 使用权限 : 所有使用…

模块化

我那进了"模块化研究"小组.所以嘞.研究模块化以及如何让项目的模块化更加合理和高效是我们小组的主要目的.首先,在实行模块化之前,得先巩固模块化开发的理论基础,因为理论是实践的基础。只有这样,在过程中理论与实践相结合,才有可能达到最满意…

1566:基础练习 十六进制转八进制

题目地址&#xff1a;https://acmore.cc/problem/LOCAL/1566 1 #include <iostream>2 #include <string>3 4 using namespace std;5 6 string HexToBin(string s) //16进制转2进制7 {8 string str "";9 for (int i 0; i < s.size(); i) 10…

利用fastjson对json转map的操作

String str "{\"0\":\"zhangsan\",\"1\":\"lisi\",\"2\":\"wangwu\",\"3\":\"maliu\"}"; //第一种方式 Map maps (Map)JSON.parse(str); System.out.println("这个是用J…

推荐书籍

五百本编程书籍推荐【信息化类】 书号书名作者出版时间定价对应页码TP02041企业资源计划&#xff08;ERP&#xff09;教程罗鸿2006-1&#xffe5;28.00—TP02031ERP理论、方法与实践周玉清 等2005-12&#xffe5;39.00—TP01059ERP原理设计实施&#xff08;第3版&#xff09;罗…

Linux diffstat命令

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 Linux diffstat命令根据diff的比较结果&#xff0c;显示统计数字。 diffstat读取diff的输出结果&#xff0c;然后统计各文件的插入&…

java命令--jmap命令使用(查找内存泄漏对象)

转自&#xff1a;https://www.cnblogs.com/kongzhongqijing/articles/3621163.html jdk安装后会自带一些小工具&#xff0c;jmap命令(Java Memory Map)是其中之一。主要用于打印指定Java进程(或核心文件、远程调试服务器)的共享对象内存映射或堆内存细节。 jmap命令可以获得运行…

tr069相关协议说明

截图自easycwmp官网&#xff1a;http://easycwmp.org/转载于:https://www.cnblogs.com/kiss-passion/p/10362029.html

如何revert一个merged branch上所有的改动

开发过程中如果想删除之前merged的某个branch&#xff0c;并且在merge过该分支之后又进行了多次的提交&#xff0c;可以通过以下命令进行&#xff1a; git revert -n merge_commit_id -m 1 注&#xff1a;该方法适合merge过分支后&#xff0c;没有基于该branch内容做修改的情况…

Beta 冲刺(6/7)

队名 火箭少男100组长博客 林燊大哥作业博客 Beta 冲鸭鸭鸭&#xff01;成员冲刺阶段情况 林燊&#xff08;组长&#xff09; 过去两天完成了哪些任务 协调组内工作最终测试文稿编写展示GitHub当日代码/文档签入记录(组内共享)接下来的计划 协助开发组完成标签制作展示视频制作…

Linux find命令、Linux rmdir命令、Linux ls命令

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 Linux find命令用来在指定目录下查找文件。任何位于参数之前的字符串都将被视为欲查找的目录名。如果使用该命令时&#xff0c;不设置任…

Android Bluetooth BLE相关开发资源汇总

Android开启蓝牙开关 转载自Android&#xff1a;Bluetooth 的打开和关闭 检查系统蓝牙是否开启 BluetoothManager bluetoothManager (BluetoothManager) this. getSystemService(Context.BLUETOOTH_SERVICE); BluetoothAdapter mBluetoothAdapter bluetoothManager.getAdapt…

__invoke,try{}catch(){},microtime(),is_callable()

<?php /*1.对象本身不能直接当函数用&#xff0c;如果被当做函数用&#xff0c;会直接回调__invoke方法* 2.验证变量的内容能否作为函数调用* 3.try{}catch(Exception $e){}catch(){}finally{}* 4.microtime()函数返回当前时间戳和微妙数* */ class httpException extends …

H.264中的I_PCM模式

H.264中的I_PCM模式 I_PCM是一种帧内编码模式&#xff0c;在该模式下&#xff0c;编码器直接传输图像的像素值&#xff0c;而不经过预测和变换。在一些特殊的情况下&#xff0c;特别是图像内容不规则或者量化参数非常低时&#xff0c;该模式比常规的操作&#xff08;帧内预测…

RxPermissions 源码解析之举一反三

[toc] RxPermissions 源码解析 简介 RxPermissions 是基于 RxJava 开发的用于帮助 在Android 6.0 中处理运行时权限检测的框架。在 Android 6.0 中增加了对危险权限的动态申请&#xff0c;而不是像 Android 6.0 之前的默认全部获取的方式。 原始动态权限的获取 如果按照以往的获…

总结Selenium WebDriver中一些鼠标和键盘事件的使用

在使用 Selenium WebDriver 做自动化测试的时候&#xff0c;会经常模拟鼠标和键盘的一些行为。比如使用鼠标单击、双击、右击、拖拽等动作&#xff1b;或者键盘输入、快捷键使用、组合键使用等模拟键盘的操作。在 WebDeriver 中&#xff0c;有一个专门的类来负责实现这些测试场…

最快浮点数取绝对值

做视频算法10多年&#xff0c;经常要算绝对值&#xff0c;整数的绝对值有快速算法&#xff0c;但浮点数的绝对值没看到有快速算法&#xff0c;经常不段发现&#xff0c;得到如下浮点数的快速算法&#xff1a; 快6倍多&#xff0c; #include <Windows.h> #include <ios…