Hadoop-HBASE案例分析-Hadoop学习笔记二

之前有幸在MOOC学院抽中小象学院hadoop体验课。 
这是小象学院hadoop2.X概述第八章的笔记 
主要介绍HBase,一个分布式数据库的应用案例。

案例概况:

1)时间序列数据库(OpenTSDB) 
用HBase储存时间序列数据,每时每刻都在解决,数据库为开源 
2)HBase爬虫调度库 
垂直搜索爬虫 
大规模爬虫(全网爬虫) 
这里界定URL爬虫调度 
3)HBase文档库 
储存文档数据库,偏重于储存 
4)银行人民币查询系统

不在博客园上阅读时才会看到的,这篇博文归http://www.cnblogs.com/weibaar 所有

仅保证在博客园博客上的排版干净利索还有代码块与图片正确显示,他站请保留作者信息尊重版权啊

HBase在实际问题中的应用:

当数据需要随机读写应用,或者高并发操作(大数据多次操作),或者当数据结构简单,但是量大(非关系型需要大量应用join操作) 
HBase对关系型查询,如join等比较难操作 
关键要设计Rowkey,可加快查询 
常用语言有Java, thrift引用其他语言操作

在rowkey设计里要避免rowkey热点,要充分利用rowkey有序特点,并可以把需求字段组合成rowkey

时间序列数据库

OpenTSDB属于分布式、可伸缩的时间序列数据库 
可以在秒级数据进行采集,并支持永久存储与容量规划,另外可以从不同的metrics进行存储、索引 
普通mysql容量不够,维度支持不够 
该数据库的经验(应该会有遗漏。。) 
1)更多的列,更多的数据,扫描更快(在列上扫描比行上扫描快) 
2)要让每一行的数据相对独立。把行按照一定的规律进行切分(譬如认为10秒是一行数据,时间戳) 
3)要在每一个KeyValue里储存更多的数据 
4)不要把同步的储存到server里面(如HTable/HTablePool等),多用asynchbase的护理高并发数据库 
5)key尽量等长 
6)不要在一个Region里储存过多?

储存时间序列的方法

每一行保存一个metric & time 以及值,这样可以按不同维度储存 
把metric id放在时间前面做组合的key,能够更快扫描相应的维度,而且可以节省储存空间(把metrics编号,而不是直接用其名字做metrics) 

还可以把行变宽,使行储存更多数据(+0,+1,+2),但是这个不会节省任何空间,只是展示上有所变化而已 
但是行不能无限度变宽。 
另外,为了防止网络中断错行,建议按照时间戳分行,而不是时间+1、+2、+3这样按列数断行 
有相应的PDF,网上搜就可以了。。

总结

加宽行可以增加扫描速度,组合使用rowkey,但这些并不能节省空间 
只有合并列、缩短column family名字才能一定程度上缩短空间


垂度爬虫调度库


多个组(如图片组新闻组等)同时进行爬虫处理,并储存到调度库里,HBase定期读取即可

特点

爬虫软件需要根据实时性、优先级等存储调度需要爬取的url 
且爬虫需要为不同组维护url列表 
基本上是队列特征,先插入的URL要优先爬取。但是也要有可以自定义优先级的功能。而且由于数据量差异大(图片很大),也要合理分配资源。 
如垂直业务同时调度、站点抓取速度限速处理、还有时间戳调度处理。

调度库

为不同频道储存host特点及host url列表。 
在url里按照hostid与优先级排序 
这里符合之前OpenTSDB的特性,不要直接用名字做rowkey,而是用ID(来自host name表)排序 
这样就可以有间隔的扫描线程来执行URL

总结:

要充分运用rowkey进行有序排序 
要把rowkey融入有用的字段hostid+PID+URLID 
不要直接用字符串作为rowkey,而是编码以后(整数)进行扫描,节省空间(因为每个列都要储存rowkey 
而且整数化以后就规整化了


文档库

文档库与调度库原理比较相似 
文档库,可以存储网页分析以后更加精细化的数据

特点:

数据格式不一样,需要实时读取和写入(还有更新),数据之间存储会有关联(如BLOG的评论和正文之间是有关联的)

不在博客园上阅读时才会看到的,这篇博文归http://www.cnblogs.com/weibaar 所有

仅保证在博客园博客上的排版干净利索还有代码块与图片正确显示,他站请保留作者信息尊重版权啊

技术特点

拆分基础数据和动态数据(两个column family) 
基础的基本不会变(网页标题啊内容啊创建时间啊) 
动态数据可以实时变化(浏览量啊等等) 
这里不再是一个server应对不同组,而是多个server应对多个组,以应对不同组的不同数据精细化要求 
关联


不在博客园上阅读时才会看到的,这篇博文归http://www.cnblogs.com/weibaar 所有

仅保证在博客园博客上的排版干净利索还有代码块与图片正确显示,他站请保留作者信息尊重版权啊

银行人民币查询系统

特点:

规模极大,且设备分散(如ATM啊点钞机啊等等),采集系统要求要及时且不能有遗漏 
可按照人民币冠字号来看,做HASH值或逆转(因为冠字号可能是连续的,有些连号钞票会储存在一起,无法有效切分数据储存,有时候会造成访问热点,因此需要更改冠字号来做rowkey) 
要求 
及时可靠,能够快速检索及存储,且扩展性要好 

因为涉及到多设备采集输入,所以可以用Flume+HBase解决问题 
选择HBase的原因是应用非常简单,只是简单查询而已,用HBase就够了 
可以参考Cloudera开源的日志收集系统

总结

HBase常常需要与其他系统结合使用 
要尽量避免产生访问热点(尤其要避免直接采用时间作为rowkey),要把连续号打散

转载于:https://www.cnblogs.com/weibaar/p/4767881.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/431433.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python测试udp端口_怎样测试UDP端口

文章概述:怎样测试远程UDP端口,我们一般情况下,应用服务都使用的TCP端口,但是某些情况下,我们也需要开启UDP端口。本文简要描述怎样测试UDP端口是否正常?TCP端口大家都知道,比如80端口,可以使用…

Matlab经纬度坐标转换xy坐标,经纬度坐标系转换为UTM坐标系(matlab)

如题所说,直接上程序。验证自己做一下,结果应该是对的。诚不我欺。(注意:程序名与函数名保持一致!!!)function[shuchu]lat_lon2utm(lat_shuru,lon_shuru)%地理经纬度坐标转换为UTM坐标size_shuzusize(lat_s…

ASP.NET MVC中的模型装配 封装方法 非常好用

下面说一下我们知道在asp.net mvc中 视图可以绑定一个实体模型 然后我们三层架构中也有一个model模型 但是这两个很多时候却是不一样的对象来的 就拿微软的官方mvc例子来说明 微软的视图实体中 有loginmodel 有registermodel 等等 这些视图模型 都只是占用户实体的某几个字段而…

python webviewer爬虫_爬虫再也不怕检测浏览器环境了

背景之前爬虫 驱动个 selenium 基本上就可以了.但是现在各种检测浏览器环境...特别是不熟悉 js 的同学就更烦了本文是直接把 selenium pyppeteer 以及正常打开浏览器 的环境差异直接列出来这样你就可以更愉快的爬虫了(可以直接把环境全部模拟上,或者大概看看有啥,下次看人家混淆…

jQuery: 整理2---操作元素的样式

1.获取元素的class属性值 attr("class") <div id"conBlue" class"blue larger">天蓝色</div>const cla $("#conBlue").attr("class") console.log(cla) // blue larger 2.设置元素的样式 attr("class…

matlab空间曲面拟合,matlab如何进行曲面拟合

matlab如何进行曲面拟合以下文字资料是由(历史新知网www.lishixinzhi.com)小编为大家搜集整理后发布的内容&#xff0c;让我们赶快一起来看一下吧&#xff01;在一丘陵地带测量高程&#xff0c;x和 y方向每隔100米测一个点&#xff0c;得高程如下表&#xff0c;试插值一曲面&am…

python做的游戏可以导出吗_Python for RenderDoc批量导出模型和贴图

故事背景&#xff1a;美术那里有需求&#xff0c;需要别人游戏的模型&#xff0c;来借鉴一下&#xff0c;问我是否有工具可以一键导出模型。我就搜索了一下RenderDoc批量导出图片&#xff0c;结果搜到了用C改RenderDoc源码的文章。让RenderDoc批量导出纹理_专栏-CSDN博客​blog…

treegrid.bootstrap使用说明

treegrid.bootstrap使用说明 这个插件是用来做有层次的表格的&#xff0c;大概如图&#xff1a; 官网 http://maxazan.github.io/jquery-treegrid/ 使用这个控件之前需要引入以下css及js&#xff08;因为用到了 bootstrap.js 所以加上了 bootstrap的样式和脚本&#xff09; bo…

matlab 条形图横坐标,Matlab条形图bar横坐标间距设置

1. 默认横坐标数据 X[x1, x2, x3, x4, x5, x6] %一行六列bar(X); %绘制基础条形图2. 修改横坐标标签#考虑横坐标标签文本较长且字体较大的情况bar(X);set(gca, xticklabels,{Apple, Orange, Banana, Pear, Pitaya, Lemon}, Fontname, Times New Roman, Fontsize, 16); %修…

成都python数据分析师职业技能_合格大数据分析师应该具备的技能

课程七、建模分析师之软技能 - 数据库技术本部分课程主要介绍MySQL数据库的安装使用及常用数据操作1、关系型数据库介绍2、MySQL的基本操作:1)数据库的操作2)数据表的操作3)备份与恢复3、常用的SQL语句:1)查询语句(SELECT)2)插入语句(INSERT)3)更新语句(UPDATE)4)删除语句(DELE…

项目属性--生成事件--后期生成事件命令行

以开源记牌器https://github.com/Epix37/Hearthstone-Deck-Tracker 为例&#xff0c;Hearthstone Deck Tracker项目中的后期生成事件命令行&#xff1a; if "$(ConfigurationName)" "Release" ( rmdir /S /Q "..\Hearthstone Deck Tracker" mkd…

大连理工优化方法matlab,大连理工大学2016年秋季优化方法大作业.pdf

优化方法期末上机大作业姓 名&#xff1a;李岚松学 部&#xff1a;电信学部电气工程学 号2016 年 11 月 9 日1最速下降法//最速下降法主函数//function llsdi1titidu(x)di1titidu(x)x0x; eps1e-4; k0; g0g(x0); s04; k0; g0g(x0); s0-g0;while (k>0)if norm(g0)break;elsela…

查看租户情况

source /root/openrc 查看keystone租户 keystone tenant-list 已知租户ID&#xff0c;获取租户名称 keystone tenant-get 5d95a18b92834ef2ada3abcf8eff1c83 查看某租户的配额及使用情况 # nova absolute-limits –-tenant ac9e6a9f-58c(租户ID)&#xff08;输出的内容不准确&a…

stm32 485和232可以用同一个串口吗_STM32的复用时钟何时开启?

STM32的AFIO时钟真的是在开启引脚复用功能的时候开启吗&#xff1f;其实并不是~什么是复用&#xff1f;我们知道&#xff0c;STM32有很多外设&#xff0c;这些外设的外部引脚都是与GPIO共用的。我们可以通过软件来配置引脚作为GPIO引脚还是作为外设引脚。当引脚配置为外设引脚时…

matlab 0-100随机数,添加到100的随机数:matlab

我经常看到这样的错误&#xff1a;要用给定的和来生成随机数&#xff0c;我们只需要使用一个一致的随机集&#xff0c;并且只需对它们进行缩放。但是&#xff0c;如果你这样做的话&#xff0c;结果真的都是随机的吗&#xff1f;在两个维度上尝试这个简单的测试。生成一个巨大的…

url中#号的作用

url中#号的作用就是本页面位置跳转 比如这个url地址&#xff1a;http://www.aaaaa.com/index.html?ad34&mc#red red就是index.html页面的依哥位置 浏览器读取这个URL后&#xff0c;会自动将red位置滚动至可视区域 位置定义方式 <a name"red">cdsc</a&…

python访问mysql_python连接mysql

首先需要导入驱动模块打开cmd导入模块 pip install mysqldb(pymysql)python2.x版本--------->mysqldbpython3.x版本---------->pymysqlpython调用MySQL数据库总共五步1、导入模块(驱动) pymysql mysqldb2、获取连接 connect3、获取游标cursor4、执行sql execute 并且返回…

php左侧菜单栏递归代码,js实现左侧菜单栏递归循环遍历

首先html布局菜单jsonconst menuList [{title: 首页,key: /home},{title: UI,key: /ui,children: [{title: 按钮,key: /ui/buttons,},{title: 弹框,key: /ui/modals,},{title: Loading,key: /ui/loadings,},{title: 通知提醒,key: /ui/notification,},{title: 全局Message,key…

重定向IO

引用自&#xff1a;http://www.cnblogs.com/liunanjava/p/4307793.html 1.三个静态变量 java.lang.System提供了三个静态变量 System.in&#xff08;默认键盘&#xff09;System.out(默认显示器)System.errSystem提供了三个重定向方法2.重写向方法 System提供了三个重定向方法 …

python三维数据本地保存_如何将3D Python/NumPy数组保存为文本文件?

如果保存文件需要是“csv”样式的文本&#xff0c;则可以使用多个savetxt和loadtxt。关键是要知道这两个都可以以打开的文件作为输入。写作示例&#xff1a;In [31]: Anp.arange(3*2*4).reshape(3,2,4)In [32]: A # normal display as 3 blocks of 2d arrayOut[32]:array([[[ 0…