怎么做自己的彩票网站怎么做充值网站
怎么做自己的彩票网站,怎么做充值网站,crm管理系统单机版,佛山网站建设推荐常用的几种大数据架构剖析
随着大数据技术的发展#xff0c;数据挖掘、数据探索等专有名词曝光度越来越高#xff0c;但是在类似于Hadoop系列的大数据分析系统大行其道之前#xff0c;数据分析工作已经经历了长足的发展#xff0c;尤其是以BI系统为主的数据分析#xff0…常用的几种大数据架构剖析
随着大数据技术的发展数据挖掘、数据探索等专有名词曝光度越来越高但是在类似于Hadoop系列的大数据分析系统大行其道之前数据分析工作已经经历了长足的发展尤其是以BI系统为主的数据分析已经有了非常成熟和稳定的技术方案和生态系统。 数据分析工作虽然隐藏在业务系统背后但是具有非常重要的作用数据分析的结果对决策、业务发展有着举足轻重的作用。随着大数据技术的发展数据挖掘、数据探索等专有名词曝光度越来越高但是在类似于Hadoop系列的大数据分析系统大行其道之前数据分析工作已经经历了长足的发展尤其是以BI系统为主的数据分析已经有了非常成熟和稳定的技术方案和生态系统对于BI系统来说大概的架构图如下 可以看到在BI系统里面核心的模块是CubeCube是一个更高层的业务模型抽象在Cube之上可以进行多种操作例如上钻、下钻、切片等操作。大部分BI系统都基于关系型数据库关系型数据库使用SQL语句进行操作但是SQL在多维操作和分析的表示能力上相对较弱所以Cube有自己独有的查询语言MDXMDX表达式具有更强的多维表现能力所以以Cube为核心的分析系统基本占据着数据统计分析的半壁江山大多数的数据库服务厂商直接提供了BI套装软件服务轻易便可搭建出一套Olap分析系统。不过BI的问题也随着时间的推移逐渐显露出来
BI系统更多的以分析业务数据产生的密度高、价值高的结构化数据为主对于非结构化和半结构化数据的处理非常乏力例如图片文本音频的存储分析。
由于数据仓库为结构化存储在数据从其他系统进入数据仓库这个东西我们通常叫做ETL过程ETL动作和业务进行了强绑定通常需要一个专门的ETL团队去和业务做衔接决定如何进行数据的清洗和转换。
随着异构数据源的增加例如如果存在视频文本图片等数据源要解析数据内容进入数据仓库则需要非常复杂等ETL程序从而导致ETL变得过于庞大和臃肿。
当数据量过大的时候性能会成为瓶颈在TB/PB级别的数据量上表现出明显的吃力。
数据库的范式等约束规则着力于解决数据冗余的问题是为了保障数据的一致性但是对于数据仓库来说我们并不需要对数据做修改和一致性的保障原则上来说数据仓库的原始数据都是只读的所以这些约束反而会成为影响性能的因素。
ETL动作对数据的预先假设和处理导致机器学习部分获取到的数据为假设后的数据因此效果不理想。例如如果需要使用数据仓库进行异常数据的挖掘则在数据入库经过ETL的时候就需要明确定义需要提取的特征数据否则无法结构化入库然而大多数情况是需要基于异构数据才能提取出特征。
在一系列的问题下以Hadoop体系为首的大数据分析平台逐渐表现出优异性围绕Hadoop体系的生态圈也不断的变大对于Hadoop系统来说从根本上解决了传统数据仓库的瓶颈的问题但是也带来一系列的问题
从数据仓库升级到大数据架构是不具备平滑演进的基本等于推翻重做。大数据下的分布式存储强调数据的只读性质所以类似于HiveHDFS这些存储方式都不支持updateHDFS的write操作也不支持并行这些特性导致其具有一定的局限性。
基于大数据架构的数据分析平台侧重于从以下几个维度去解决传统数据仓库做数据分析面临的瓶颈
分布式计算分布式计算的思路是让多个节点并行计算并且强调数据本地性尽可能的减少数据的传输例如Spark通过RDD的形式来表现数据的计算逻辑可以在RDD上做一系列的优化来减少数据的传输。分布式存储所谓的分布式存储指的是将一个大文件拆成N份每一份独立的放到一台机器上这里就涉及到文件的副本分片以及管理等操作分布式存储主要优化的动作都在这一块。检索和存储的结合在早期的大数据组件中存储和计算相对比较单一但是目前更多的方向是在存储上做更多的手脚让查询和计算更加高效对于计算来说高效不外乎就是查找数据快读取数据快所以目前的存储不单单的存储数据内容同时会添加很多元信息例如索引信息。像类似于parquet和carbondata都是这样的思想。
总的来说目前围绕Hadoop体系的大数据架构大概有以下几种
传统大数据架构 之所以叫传统大数据架构是因为其定位是为了解决传统BI的问题简单来说数据分析的业务没有发生任何变化但是因为数据量、性能等问题导致系统无法正常使用需要进行升级改造那么此类架构便是为了解决这个问题。可以看到其依然保留了ETL的动作将数据经过ETL动作进入数据存储。
优点简单易懂对于BI系统来说基本思想没有发生变化变化的仅仅是技术选型用大数据架构替换掉BI的组件。缺点对于大数据来说没有BI下如此完备的Cube架构虽然目前有kylin但是kylin的局限性非常明显远远没有BI下的Cube的灵活度和稳定度因此对业务支撑的灵活度不够所以对于存在大量报表或者复杂的钻取的场景需要太多的手工定制化同时该架构依旧以批处理为主缺乏实时的支撑。适用场景数据分析需求依旧以BI场景为主但是因为数据量、性能等问题无法满足日常使用。
流式架构 在传统大数据架构的基础上流式架构非常激进直接拔掉了批处理数据全程以流的形式处理所以在数据接入端没有了ETL转而替换为数据通道。经过流处理加工后的数据以消息的形式直接推送给了消费者。虽然有一个存储部分但是该存储更多的以窗口的形式进行存储所以该存储并非发生在数据湖而是在外围系统。
优点没有臃肿的ETL过程数据的实效性非常高。缺点对于流式架构来说不存在批处理因此对于数据的重播和历史统计无法很好的支撑。对于离线分析仅仅支撑窗口之内的分析。适用场景预警监控对数据有有效期要求的情况。
Lambda架构 Lambda架构算是大数据系统里面举足轻重的架构大多数架构基本都是Lambda架构或者基于其变种的架构。Lambda的数据通道分为两条分支实时流和离线。实时流依照流式架构保障了其实时性而离线则以批处理方式为主保障了最终一致性。什么意思呢?流式通道处理为保障实效性更多的以增量计算为主辅助参考而批处理层则对数据进行全量运算保障其最终的一致性因此Lambda最外层有一个实时层和离线层合并的动作此动作是Lambda里非常重要的一个动作大概的合并思路如下 优点既有实时又有离线对于数据分析场景涵盖的非常到位。缺点离线层和实时流虽然面临的场景不相同但是其内部处理的逻辑却是相同因此有大量荣誉和重复的模块存在。适用场景同时存在实时和离线需求的情况。
Kappa架构 Kappa架构在Lambda 的基础上进行了优化将实时和流部分进行了合并将数据通道以消息队列进行替代。因此对于Kappa架构来说依旧以流处理为主但是数据却在数据湖层面进行了存储当需要进行离线分析或者再次计算的时候则将数据湖的数据再次经过消息队列重播一次则可。
优点Kappa架构解决了Lambda架构里面的冗余部分以数据可重播的超凡脱俗的思想进行了设计整个架构非常简洁。缺点虽然Kappa架构看起来简洁但是施难度相对较高尤其是对于数据重播部分。适用场景和Lambda类似改架构是针对Lambda的优化。
Unifield架构 以上的种种架构都围绕海量数据处理为主Unifield架构则更激进将机器学习和数据处理揉为一体从核心上来说Unifield依旧以Lambda为主不过对其进行了改造在流处理层新增了机器学习层。可以看到数据在经过数据通道进入数据湖后新增了模型训练部分并且将其在流式层进行使用。同时流式层不单使用模型也包含着对模型的持续训练。
优点Unifield架构提供了一套数据分析和机器学习结合的架构方案非常好的解决了机器学习如何与数据平台进行结合的问题。缺点Unifield架构实施复杂度更高对于机器学习架构来说从软件包到硬件部署都和数据分析平台有着非常大的差别因此在实施过程中的难度系数更高。
适用场景有着大量数据需要分析同时对机器学习方便又有着非常大的需求或者有规划。
总结
以上几种架构为目前数据处理领域使用比较多的几种架构当然还有非常多其他架构不过其思想都会或多或少的类似。数据领域和机器学习领域会持续发展以上几种思想或许终究也会变得过时。 阅读目录置顶)(长期更新计算机领域知识https://blog.csdn.net/weixin_43392489/article/details/102380691
阅读目录置顶)(长期更新计算机领域知识https://blog.csdn.net/weixin_43392489/article/details/102380882
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/89301.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!