怎么做自己的彩票网站怎么做充值网站

diannao/2026/1/22 12:59:25/文章来源:
怎么做自己的彩票网站,怎么做充值网站,crm管理系统单机版,佛山网站建设推荐常用的几种大数据架构剖析 随着大数据技术的发展#xff0c;数据挖掘、数据探索等专有名词曝光度越来越高#xff0c;但是在类似于Hadoop系列的大数据分析系统大行其道之前#xff0c;数据分析工作已经经历了长足的发展#xff0c;尤其是以BI系统为主的数据分析#xff0…常用的几种大数据架构剖析 随着大数据技术的发展数据挖掘、数据探索等专有名词曝光度越来越高但是在类似于Hadoop系列的大数据分析系统大行其道之前数据分析工作已经经历了长足的发展尤其是以BI系统为主的数据分析已经有了非常成熟和稳定的技术方案和生态系统。 数据分析工作虽然隐藏在业务系统背后但是具有非常重要的作用数据分析的结果对决策、业务发展有着举足轻重的作用。随着大数据技术的发展数据挖掘、数据探索等专有名词曝光度越来越高但是在类似于Hadoop系列的大数据分析系统大行其道之前数据分析工作已经经历了长足的发展尤其是以BI系统为主的数据分析已经有了非常成熟和稳定的技术方案和生态系统对于BI系统来说大概的架构图如下 可以看到在BI系统里面核心的模块是CubeCube是一个更高层的业务模型抽象在Cube之上可以进行多种操作例如上钻、下钻、切片等操作。大部分BI系统都基于关系型数据库关系型数据库使用SQL语句进行操作但是SQL在多维操作和分析的表示能力上相对较弱所以Cube有自己独有的查询语言MDXMDX表达式具有更强的多维表现能力所以以Cube为核心的分析系统基本占据着数据统计分析的半壁江山大多数的数据库服务厂商直接提供了BI套装软件服务轻易便可搭建出一套Olap分析系统。不过BI的问题也随着时间的推移逐渐显露出来 BI系统更多的以分析业务数据产生的密度高、价值高的结构化数据为主对于非结构化和半结构化数据的处理非常乏力例如图片文本音频的存储分析。 由于数据仓库为结构化存储在数据从其他系统进入数据仓库这个东西我们通常叫做ETL过程ETL动作和业务进行了强绑定通常需要一个专门的ETL团队去和业务做衔接决定如何进行数据的清洗和转换。 随着异构数据源的增加例如如果存在视频文本图片等数据源要解析数据内容进入数据仓库则需要非常复杂等ETL程序从而导致ETL变得过于庞大和臃肿。 当数据量过大的时候性能会成为瓶颈在TB/PB级别的数据量上表现出明显的吃力。 数据库的范式等约束规则着力于解决数据冗余的问题是为了保障数据的一致性但是对于数据仓库来说我们并不需要对数据做修改和一致性的保障原则上来说数据仓库的原始数据都是只读的所以这些约束反而会成为影响性能的因素。 ETL动作对数据的预先假设和处理导致机器学习部分获取到的数据为假设后的数据因此效果不理想。例如如果需要使用数据仓库进行异常数据的挖掘则在数据入库经过ETL的时候就需要明确定义需要提取的特征数据否则无法结构化入库然而大多数情况是需要基于异构数据才能提取出特征。 在一系列的问题下以Hadoop体系为首的大数据分析平台逐渐表现出优异性围绕Hadoop体系的生态圈也不断的变大对于Hadoop系统来说从根本上解决了传统数据仓库的瓶颈的问题但是也带来一系列的问题 从数据仓库升级到大数据架构是不具备平滑演进的基本等于推翻重做。大数据下的分布式存储强调数据的只读性质所以类似于HiveHDFS这些存储方式都不支持updateHDFS的write操作也不支持并行这些特性导致其具有一定的局限性。 基于大数据架构的数据分析平台侧重于从以下几个维度去解决传统数据仓库做数据分析面临的瓶颈 分布式计算分布式计算的思路是让多个节点并行计算并且强调数据本地性尽可能的减少数据的传输例如Spark通过RDD的形式来表现数据的计算逻辑可以在RDD上做一系列的优化来减少数据的传输。分布式存储所谓的分布式存储指的是将一个大文件拆成N份每一份独立的放到一台机器上这里就涉及到文件的副本分片以及管理等操作分布式存储主要优化的动作都在这一块。检索和存储的结合在早期的大数据组件中存储和计算相对比较单一但是目前更多的方向是在存储上做更多的手脚让查询和计算更加高效对于计算来说高效不外乎就是查找数据快读取数据快所以目前的存储不单单的存储数据内容同时会添加很多元信息例如索引信息。像类似于parquet和carbondata都是这样的思想。 总的来说目前围绕Hadoop体系的大数据架构大概有以下几种 传统大数据架构 ​之所以叫传统大数据架构是因为其定位是为了解决传统BI的问题简单来说数据分析的业务没有发生任何变化但是因为数据量、性能等问题导致系统无法正常使用需要进行升级改造那么此类架构便是为了解决这个问题。可以看到其依然保留了ETL的动作将数据经过ETL动作进入数据存储。 优点简单易懂对于BI系统来说基本思想没有发生变化变化的仅仅是技术选型用大数据架构替换掉BI的组件。缺点对于大数据来说没有BI下如此完备的Cube架构虽然目前有kylin但是kylin的局限性非常明显远远没有BI下的Cube的灵活度和稳定度因此对业务支撑的灵活度不够所以对于存在大量报表或者复杂的钻取的场景需要太多的手工定制化同时该架构依旧以批处理为主缺乏实时的支撑。适用场景数据分析需求依旧以BI场景为主但是因为数据量、性能等问题无法满足日常使用。 流式架构 在传统大数据架构的基础上流式架构非常激进直接拔掉了批处理数据全程以流的形式处理所以在数据接入端没有了ETL转而替换为数据通道。经过流处理加工后的数据以消息的形式直接推送给了消费者。虽然有一个存储部分但是该存储更多的以窗口的形式进行存储所以该存储并非发生在数据湖而是在外围系统。 优点没有臃肿的ETL过程数据的实效性非常高。缺点对于流式架构来说不存在批处理因此对于数据的重播和历史统计无法很好的支撑。对于离线分析仅仅支撑窗口之内的分析。适用场景预警监控对数据有有效期要求的情况。 Lambda架构 Lambda架构算是大数据系统里面举足轻重的架构大多数架构基本都是Lambda架构或者基于其变种的架构。Lambda的数据通道分为两条分支实时流和离线。实时流依照流式架构保障了其实时性而离线则以批处理方式为主保障了最终一致性。什么意思呢?流式通道处理为保障实效性更多的以增量计算为主辅助参考而批处理层则对数据进行全量运算保障其最终的一致性因此Lambda最外层有一个实时层和离线层合并的动作此动作是Lambda里非常重要的一个动作大概的合并思路如下 优点既有实时又有离线对于数据分析场景涵盖的非常到位。缺点离线层和实时流虽然面临的场景不相同但是其内部处理的逻辑却是相同因此有大量荣誉和重复的模块存在。适用场景同时存在实时和离线需求的情况。 Kappa架构 ​ Kappa架构在Lambda 的基础上进行了优化将实时和流部分进行了合并将数据通道以消息队列进行替代。因此对于Kappa架构来说依旧以流处理为主但是数据却在数据湖层面进行了存储当需要进行离线分析或者再次计算的时候则将数据湖的数据再次经过消息队列重播一次则可。 优点Kappa架构解决了Lambda架构里面的冗余部分以数据可重播的超凡脱俗的思想进行了设计整个架构非常简洁。缺点虽然Kappa架构看起来简洁但是施难度相对较高尤其是对于数据重播部分。适用场景和Lambda类似改架构是针对Lambda的优化。 Unifield架构 ​以上的种种架构都围绕海量数据处理为主Unifield架构则更激进将机器学习和数据处理揉为一体从核心上来说Unifield依旧以Lambda为主不过对其进行了改造在流处理层新增了机器学习层。可以看到数据在经过数据通道进入数据湖后新增了模型训练部分并且将其在流式层进行使用。同时流式层不单使用模型也包含着对模型的持续训练。 优点Unifield架构提供了一套数据分析和机器学习结合的架构方案非常好的解决了机器学习如何与数据平台进行结合的问题。缺点Unifield架构实施复杂度更高对于机器学习架构来说从软件包到硬件部署都和数据分析平台有着非常大的差别因此在实施过程中的难度系数更高。 适用场景有着大量数据需要分析同时对机器学习方便又有着非常大的需求或者有规划。 总结 以上几种架构为目前数据处理领域使用比较多的几种架构当然还有非常多其他架构不过其思想都会或多或少的类似。数据领域和机器学习领域会持续发展以上几种思想或许终究也会变得过时。 阅读目录置顶)(长期更新计算机领域知识https://blog.csdn.net/weixin_43392489/article/details/102380691 阅读目录置顶)(长期更新计算机领域知识https://blog.csdn.net/weixin_43392489/article/details/102380882

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/89301.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网站建设的面试要求浏阳网站开发建设

基本概念 1 计算机软件著作权是指自然人、法人或者其他组织对计算机软件作品享有的财产权利和精神权利的总称。通常语境下,计算机软件著作权又被简称为软件著作权、计算机软著或者软著。 图片 Part.02 权利主体 2 权利的主体即软件著作权人的概念,…

做网站设计收入男女直接做的视频网站

文章目录 引言Python列表常用内置方法count()功能介绍语法示例注意事项 index()功能介绍语法示例注意事项: insert()功能介绍语法示例注意事项总结 结束语 引言 亲爱的读者,你好!Python的列表在数据结构中占据着核心地位,对于学习…

做建筑机械网站那个网站好图片设计软件app

摘录自:http://blog.csdn.net/u012318074/article/details/71310553 第一步:安装完成后不要运行MyEclipse 第二步:下载对应的破解文件 第三步:解压并打开破解文件 第四步:打开文件夹patch,将里面的文件全部…

做网站的皮包公司无极官方网

简述: 当今互联网行业对于AI提示工程的需求日益增长,而《AI提示工程指南》是一本旨在满足这种需求的宝贵指南。本指南由一位对AI提示工程充满热情并自学而来的互联网从业者撰写,旨在为行业人员提供一个全面、易懂的参考手册。 这本指南将引领您踏上AI提示工程的旅程,深入探…

级a做爰片免费视网站设计logo免费生成器

最近马上要开始一个新项目的研发,作为第一次mvvm应用的尝试,我决定使用knockoutjs框架。作为学习的开始就从官网的Document翻译开始吧,这样会增加印象并加入自己的思考,说是翻译也并不是纯粹的翻译,会加入自己对知识点的思考以及自…

网站排版用什么软件wordpress 界面优化

文章目录 1、偏向锁出现的背景2、从共享对象的内存结构看偏向锁3、偏向锁的持有4、启动偏向锁5、sleep暂停来启动偏向锁6、偏向锁的撤销7、总体流程8、SinceJava15 偏向锁的废除 1、偏向锁出现的背景 如果一个线程连续几次抢到锁,仍然重复加锁解锁,就会…

营销型网站建设策划书营销方案包括哪些内容

问题:宽带下载网速本是30MB/s,经过路由器后速度仅10MB/s,这是为什么? 宽带下载测速可以到30MB/s,说明外线和光猫还有电脑是没有问题的。目前家庭的组网基本都是光纤入户了,你的测速瓶颈既然不在光猫&#…

社交网站开发阿里企业邮箱设置

之前发的丰富的经历我12年硕士毕业,历经华为,某芯片原厂外企,某芯片原厂国企,某手机公司,最后来到大疆,可以说是一个跳槽小能手,因为具有多家大企业的工作经历,我觉得谈下自己在各个…

帝国cms地方门户网站模板注册域名邮箱怎么弄

自动分配缓冲区类 Automatically Allocated Buffer Class. 这个类用于函数和方法中的临时缓冲区。如果临时缓冲区通常很小(几K的内存),但其大小取决于参数,则在堆栈上创建一个小的固定大小数组,并在足够大时使用它是有…

外贸网站平台都有哪些平台免费html5网站源码

案例中使用的软件版本 Unity2023.1.20.f1c1ARFoundtaion 5.1.0Apple ARKit XR Plugin 5.1.0 Google ARCore XR Plugin 5.1.0技术分析 我们可以实时检测用户手指触摸的屏幕位置,从触摸位置投射一条射线(Raycast),再射线命中的目标位置创建一个点,放置一个圆,手指拖动来设置…

建设网站要多久到账东阳实惠营销型网站建设

硬件介绍 淘宝上买的核心板,大概结构如上。 直接插入电脑usb,即可实现供电、下载(控制BOOT/EN)、串口通讯 固件包 1、环境配置 1.1串口 开发板使用了 CH340G 的 USB 转串口芯片,自行安装CH340串口驱动。 1.2编译环境…

做自己视频教程的网站改变网站的域名

摘要: 通过识别BERT对话情绪状态的实例,展现在昇思MindSpore AI框架中大语言模型的原理和实际使用方法、步骤。 一、环境配置 %%capture captured_output # 实验环境已经预装了mindspore2.2.14,如需更换mindspore版本,可更改下…

去泰国做网站发网站深圳 网页制作

这几天做一个功能需要在手机上创建一个文件夹,然后往里面存储一些文件,首先得考虑用户有没有sdcard,如果有就在sdcard上创建一个指定的文件夹,如果没有则在你的工程所在的目录“/data/data/你的包名”下创建文件夹。用到的方法是&…

幕墙配件在那个网站做推广好江苏运营网站建设业务

效果图的渲染是建筑和室内设计领域中不可或缺的一步,随着技术的发展,云渲染作为一项新技术,正逐渐受到人们关注。今天,让我们深入探讨电脑渲染和云渲染这两种方法的优缺点以及它们的适用场景。 本地电脑渲染 本地电脑渲染是利用用…

网站底部友情链接做IP授权的一般看什么网站

当使用大型模型(如GPT-3.5)时,可以通过优化提示(prompt)来引导模型生成更加符合预期的内容。以下是一些调优提示词的建议: 1、清晰的问题陈述:确保你的问题或提示清晰、简明,能够准…

网站优化防范做网站给菠菜引流

近年来,随着云计算、物联网(internet of things,IOT)、移动互联网、大数据、人工智能(artificial intelligence,AI)、5G网络、区块链等新一代信息技术的逐步成熟和广泛应用,信息化已…

做家乡网站源代码仿牌外贸网站建设

两阶段提交协议 分布式事务是指会涉及到操作多个数据库的事务,在分布式系统中,各个节点之间在物理上相互独立,通过网络进行沟通和协调。 XA 就是 X/Open DTP 定义的交易中间件与数据库之间的接口规范(即接口函数),交易…

厦门入夏网站建设公司百度数据

Docker Compose 是一个强大的工具,它允许开发者通过简单的 YAML 文件定义和管理多容器的应用。本文将深入讨论 Docker Compose 的基本概念、常用命令以及高级应用场景,并通过更为丰富和实际的示例代码,助您轻松掌握如何通过 Docker Compose 打…

网站地图链接怎么做福州百度推广开户

聊城市2021年中考查分时间大约是6月27日。各普通高中要于7月10日前在校内张榜公布录取考生名单,并签发录取通知书。聊城中考录取时间各普通高中要于7月10日前在校内张榜公布录取考生名单,并签发录取通知书。所有学校均不得违规招收已被其他学校录取的考生…

怎么做网站推广最有效可以免费发外链的论坛

一、内存管理的目的和功能 内存一直是计算机系统中宝贵而又紧俏的资源,内存能否被有效、合理地使用,将直接影响到操作系统的性能。此外,虽然物理内存的增长现在达到了N个GB,但比物理内存增长还快的是程序,所以无论物理…