游戏平台网站开发宁波高端网站建设
news/
2025/9/30 7:00:19/
文章来源:
游戏平台网站开发,宁波高端网站建设,wordpress 收费 主题,网站关键字优化技巧作者 | 阿丸笔记责编 | 徐威龙封图| CSDN 下载于视觉中国在网上看过很多HBaes架构相关的文章#xff0c;内容深浅不一#xff0c;直到发现了一篇MapR官网的文章#xff0c;写得实在太生动了。https://mapr.com/blog/in-depth-look-hbase-architecture/#.VdMxvWSqqko#xf… 作者 | 阿丸笔记 责编 | 徐威龙封图| CSDN 下载于视觉中国在网上看过很多HBaes架构相关的文章内容深浅不一直到发现了一篇MapR官网的文章写得实在太生动了。https://mapr.com/blog/in-depth-look-hbase-architecture/#.VdMxvWSqqko因此以这篇文章作为骨架翻译了许多原文的内容同时对一些细节进行自己的扩展形成本文。HBase架构组成从物理结构上HBase包含了三种类型的serverzookeeper、HMaster、region server采用一种主从模式的结构。region server主要用来服务读和写操作。当用户通过client访问数据时client会和HBase RegionServer 进行直接通信。HMaster主要进行region server的管理、DDL创建、删除表操作等。Zookeeper是HDFSHadoop Distributed File System的一部分主要用来维持整个集群的存活保障了HA故障自动转移。而底层的存储还是依赖于HDFS的。Hadoop的DataNode存储了Region Server所管理的数据所有HBase的数据都是存在HDFS中的。Hadoop的NameNode维护了所有物理数据块的metadata。1.1 region serverHBase 的tables根据rowkey的范围进行水平切分切分后分配到各个regions。一个region包含一个表在start key和end key所有行。region会被分配到集群中的各个region server而用户都是跟region server进行读写交互。一个region一般建议大小在5-10G。1.2 HBase HMaster一般也叫作HMasterHMaster主要职责包括两个方面与region server的交互对region server进行统一管理启动时region的分配、崩溃后恢复的region重新分配、负载均衡的region重新分配Admin相关功能创建、删除、更新表结构等DDL操作1.3 ZookeeperHBase使用Zookeeper作为分布式协调服务来维护集群内的server状态。Zookeeper通过 heartbeat 维护了哪些server是存活并可用的并提供server的故障通知。同时使用一致性协议来保证各个分布式节点的一致性。这里需要特别关注zookeeper负责来HMaster的选举工作如果一个HMater节点宕机了就会选择另一个HMaster节点进入active状态。1.4 这些组件如何一起协调工作Zookeeper用来共享分布式系统中成员的状态它会和region server、HMasteractive保持会话通过heartbeat维持与这些ephemeral nodezk中的临时节点概念的活跃会话。下面我们可以看到zk在其中起到了最核心的作用。多个HMaster会去竞争成为zookeeper上的临时节点而zookeeper会将第一个创建成功的HMaster作为唯一当前active的HMaster其他HMater进入stand by的状态。这个active的HMaster会不断发送heartbeat给zk其他stand by状态的HMaster节点会监听这个active HMaster的故障信息。一旦发现active HMaster宕机了就会重新竞争新的active HMaster。这就实现了HMaster的高可用。每个region server会创建一个ephemeral node。HMaster会监视这些节点来确认哪些region server是可用的哪些节点发生了故障宕机了。如果一个region server或者active的HMaster 没有发送heatbeat给zk那么和zk之间的会话将会过期并且zk上会删掉这个临时节点认为这个节点发生故障需要下线了。其他监听者节点会收到这个故障节点被删除的消息。比如actvie的HMaster会监听region server的消息如果发现某个region server下线了那么就会重新分配region server来恢复相应的region数据。再比如stand by的HMaster节点会监听active 的HMaster节点一旦收到故障通知就会竞争上线成为新的active HMaster。1.5 第一次访问HBase有一个特殊的HBase目录表叫做META table保存了集群中各个region的位置。zookeeper中保存了这个meta table 的位置信息。当我们第一次访问HBase集群时会做以下操作1客户端从zk中获取保存meta table的位置信息知道meta table保存在了哪个region server并在客户端缓存这个位置信息2client会查询这个保存meta table的特定的region server查询meta table信息在table中获取自己想要访问的row key所在的region在哪个region server上。3客户端直接访问目标region server获取对应的row进一步我们了解一下meta table的存储结构。Meta table保存了所有region信息的一张表Meta table存储的数据形式类似一颗b树以keyvalue形式保存数据Key: region的table name, start key等信息 Values: region server的相关信息深入region server一个region server运行在一个HDFS的data node上并且拥有以下组件WAL全称Write Ahead Log 属于分布式系统上的文件。主要用来存储还未被持久化到磁盘的新数据。如果新数据还未持久化节点发生宕机那么就可以用WAL来恢复这些数据。BlockCache是一个读缓存。它存储了被高频访问的数据。当这个缓存满了后会清除最近最少访问的数据。MenStore: 是一个写缓存。它存储了还未被写入磁盘的数据。它会在写入磁盘前对自身数据进行排序从而保证数据的顺序写入。每个region的每个colum family会有一份对应的memstore。没错如果节点宕机了存在这个缓存里的数据没有落盘可以通过WAL保证这些数据不会丢失HFiles按照字典序存储各个row的键值。2.1 HBase写数据与region server的交互整个写的过程更加复杂而与region server的交互式最重要的一部分这里只介绍跟region server的交互。主要分为两个步骤写WAL 和 写缓存。“实际上这里除了保证数据不丢还跟提高写入效率有关具体后续专门写一个相关文档进行展开说明”1写WAL当客户端提交了一个put 请求那么在region server上需要首先写WAL(write-ahead-log)。需要注意三点Hlog是一个region server上一个并不是一个region一个写入数据是添加在log尾部log上的数据主要为了保证没有落盘的数据能在server崩溃后不丢失2写缓存数据写入WAL成功才会继续写入MemStore。然后才会返回ack给客户端表示写入成功了。2.2 HBase MemStroeMemStore主要保存数据更新在内存中以字典序的KeyValue形式跟HFile里面保存的一样。每一个column family会有一个对应的memstore更新的数据会在memstore中以key-value形式排好序存储注意看图按字典序排同时按version的倒序排列。我们可以看到key的组成包括rowkey-cf-col-version。2.3 HBase region flush当MemStore存储了足够多的数据整个有序集会被写入一个新的HFile文件中保存在HDFS。HBase中每个colum family会有多个HFile用来存储实际的keyValue。注意这里解释了为什么HBase中columfaily的数量是有限制的具体是多少。每一个cf有一个对应的MemStore当一个MemStore满了所属region的所有memstore都会被flush到磁盘。所以MemStore的flush的最小单位是一个region而不是一个MemStore。flush的同时它还会存储一些额外的信息比如最后一个写的序列号让系统知道它当前持久化到什么位置了。最大的序列号作为元数据会被存储在每个HFile中表示持久化到哪个位置了下一次持久化应该从哪里继续。一个region启动时会读取每个HFile的序列号然后最大的序列号会被用来作为新的起始序列号。深入HFile3.1 HFile的写入HBase中数据以有序KV的形式存储在HFile中。当MemStore存储了足够的数据全部kv对被写入HFile存入HDFS。这里写文件的过程是顺序写避免了硬盘大量移动磁头的过程比随机写高效很多。HFile的逻辑结构如图主要分为四个部分Scanned block pNon-scanned block pOpening-time data p和Trailer。Scanned block p表示扫描HFile时这部分所有数据块都会被读取包括Leaf Index Block和Bloom Block。Non-scanned block p表示在扫描HFile时不会被读取主要包括Meta Block和Intermediate Level Data Index Blocks两部分。Load-on-open-p表示在HBase的region server启动时会被加载到内存中。包括FileInfo、Bloom filter block、data block index和meta block index。Trailer表示HFile的基本信息、各个部分的偏移值和寻址信息。文件中采用类似b树都多层索引Kv对按递增顺序存储Root index指向非叶子结点每个数据块的最后一个key被放入中间索引(b树的非叶子结点)每个数据块有自己的叶子索引b树的叶子结点叶子索引通过row key指向64kb的kv数据块文件的末尾有个trailer节点指向了meta block。trailer节点还拥有其他信息比如布隆过滤器和时间范围信息。布隆过滤器帮助我们过滤那些不包含在这个HFilfe中的rowkey。时间范围信息用来跳过那些不在这个HFilie时间范围内的row。因此当一个HFile被读取后HFile的索引信息就会被缓存在BlockCache中这样使得查询只需要一次磁盘查询操作后续查找只需要读取blockcache内的索引信息即可。region server上的实体结构关系如下regionserver : region 1 : n每个region server上有多个region。region : store 1 n每个region里面有多个storestore : memstore 1 : 1。Memstore:Hfile 1:n。推荐阅读2020 年最新版 68 道Redis面试题20000 字干货赶紧收藏起来备用
我最喜欢的云 IDE 推荐
应聘苹果数据科学家你需要知道些什么
最近一个名为 BTCU 的比特币分叉准备用新分叉解决比特币网络的旧问题
Soul App 高管被捕恶意举报导致竞品被下架
2.2版本发布TensorFlow推出开发者技能证书
真香朕在看了
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/922554.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!