如何设计网站建设引导页wordpress主题配置修改
如何设计网站建设引导页,wordpress主题配置修改,wordpress模板专题页,wordpress替换表情变小文章目录 1. 背景2. 数据的定义及分类2.1 数据的定义2.2 数据的分类2.3 数据和信息的区别 3. 数据的作用4. 数据的那些美好时代4.1 人脑时代4.2 文件时代4.3 数据库时代4.3.1 大服务器时代4.3.2 读写分离时代4.4 数据库的分布式时代4.5 云端时代 5. 数据的未来 1. 背景 随着云时… 文章目录 1. 背景2. 数据的定义及分类2.1 数据的定义2.2 数据的分类2.3 数据和信息的区别 3. 数据的作用4. 数据的那些美好时代4.1 人脑时代4.2 文件时代4.3 数据库时代4.3.1 大服务器时代4.3.2 读写分离时代4.4 数据库的分布式时代4.5 云端时代 5. 数据的未来 1. 背景 随着云时代的发展大数据的使用变得越来越便捷数据也变得越来越重要你可以说一个企业暂时没有从数据中挖掘出价值但是一个企业绝对不可能离开数据工作大数据对于很多的人而言终究像是一位神秘女神一睹她芳泽的人把她传的神乎其神导致最终的听者都觉得她无所不能特别在最近很火的AI生成ChatGPT的带领下仿佛数据已经是IT技术界的虚空黑洞不仅可能吞噬一切而且所有解释不了的东西最终都可以从中得到答案尽管博主也觉得ChatGPT 的充满潜力和希望但是博主今天还是更想跟大家聊聊数据本身的发展规律用一段走进咖啡厅到出来的时间一起了解下数据发展的全貌。 图1.1 走进数据的世界 写这篇文章的另一个夙愿呢也是因为偶尔也有隔壁圈的朋友让我写一篇关于介绍数据的文章一开始我也会觉得行业内大佬众多我怎么有资格去写这类的文章呢但回头再想想大佬们都忙于“了却Data天下事赢得生前身后名”怎么有时间写这些小事呢第二个点呢当看到自己使用的第一代数仓供应商都从中国退市了数据技术也更新好几代了突然感觉自己也成了行业的老人那就倚老卖老一回吧。
2. 数据的定义及分类
2.1 数据的定义 数据data是事实或观察的结果是对客观事物的逻辑归纳是用于表示客观事物的未经加工的原始素材数据可以是连续的值比如声音、图像称为模拟数据也可以是离散的如符号、文字称为数字数据在计算机系统中数据以二进制信息单元0、1的形式表示。 ————概念来源百度百科 非常拗口是么其实理解下来就是某时某刻某地点发生某事记录下的这段内容叫做数据这段内容可以是文本也可以是音频/视频那这段内容到了计算机的世界呢最底层就是一段段01的二进制编码这种串的长度和01的不同都代表了不同的数据。
01、00、10001、010、100、011、110、111 …… 图2.1 0/1的神奇世界 2.2 数据的分类 为不同的目的数据使用者可能会把数据分成不同的分类但是从数据的表现形式上一般分为最常见的结构化数据、遵循某一规律的半结构化数据、毫无规律的非结构化数据。 图2.2 数据表现形式的分类 结构化数据 : 有行第一维度有列第二维度也叫二维表或关系模型划重点后面会考……首行一般带一个表头每一列的数据性质上是一样的每一行的数据列数都相同最典型的代表就是表格、Excel……
图2.3 结构化数据 半结构化数据 需要你有“找一找”的能力看看数据的规律一般是键值对类似行者—武松花和尚—鲁智深或者是遵循某一规律一条长串字符典型的代表就是json串xml文件日志摩斯密码你写给你初中/高中女朋友的火星文情书……
//一个XML文档的例子a person namedRowyet Lau
namefirstRowyet/firstsecondLau/second
/name//一个JSON文档的例子a person namedRowyet Lau
{frstnameRowyetsecondname:Lau
}//一段火星文情书
瀙嗳の(亲爱的涐嗳伱佷玖ㄋ我爱你很久了非结构化数据 数据没有固定的格式和规律就像你的关注的金融曲线当你以为你把握住了其实又变化了典型的代表就是图片、音乐、视频的存储需要用特定的预览软件才支持查看 以下是某一张图片的存储文本样例……
kA≤ô%͆y•a∫·‘Ëé?â…u•Z•çúj9r°X|¨}i—jã©sm,flfÉõà⁄«∏«“æ»õˆg¯KrÊ·B§ì˚Ãs‘\ΩˇÏì‡S}-÷Å™\XIùÓAê”öÁñ_S°¥qtŸÛ§ŸA˛ìpÈr«Ê]…yΩácÌI≠\Ÿ›È®˙N¢±‘!%%∂ËW†!Ωä˛ï˲/˝ã|q≠Eog¶¯˜O÷ÛyæCG襋msëèQ¯◊öI3„óÇuàÙâ¸◊˛Ü,#È„vœòˇ{‰˜›\”¿‘騒VÉŸéøÒæç·{ø¨Ø}w®,jòú¶TÒ◊û:}kå}¶õlów6Ò˘ñ™©‹¡I‰û˛µèÒWNÒeñ°e?ˆ•aqe0v{õw:GS◊ä±m‚n‡≥èt≤ã√XUw|ÏF1ûMfË…ùßKi®jˆu⁄5¸∑Odd qú~Õûµ™k˛çÌúG,◊øgéCÛy{‹ßÚjúû!ªû¨÷≥i“}æëÂG ̵xÔŒ?*≠·ÈıM €G≤í≥
QØ.c~X3… c“ãXùŒ€≈öæû∫}…∫ªä]Bs2»´ŒŸGøn¢ºUÉWá«1∆ñÂlnÔPvß)∑9Ô‘◊∫xá¡Vöfi¥u]Ü 4à ±Ûʱ1«rpŒØÇ!öˆ‹˜P¿¨˛Æ{¿s]T?àeY˚:rÙ;ô蟥•yfl_õ˛…˝Ex∆flÔ¡˙ú∏Œ“YóÛ5Óz’¿˛ŒX≥¬OÙ˝Mx«ƒã{y¸©F˝]fl¿Û˙ä˚¯ÎÅ~áÂR©ˇ
Pˇ¸œó¥¸GÚ„8™∫ÇfRqS#l∏“ãµ´Á–zô€}©‘≈;ˆı®€èÁLªhJÄ*sZ÷guºÁ˝ö…Éf¥‡;Y8Î≈fÃÈ*åùj‰Õ÷©…fi≥ab6ÈLjêÛQÓˆ§ä(´((¢ä(¢ä(¢é{P98k[Afi•Ææm£€»úˇjˇÉ
´xíıT[≤AúôqézW‘æ ¯e§¯f!ÏÃ∑à;Ö¿‘å1„ìé Í{Ê∞©YCmM©—sflCó¬Õ√ÛŸ^jV^dØ8˘∑ü_Jı/!¥“Eùï®) πı˛èj≥®YŒ˙eΩ‰ÆÓ¶˘UGF¶ù(j±¥ÚÏ– ùó∏˛#äÛß77vv¬»mùÃ◊÷2››K∂ÈÑÏWŞ5ߣœms~•mY¶øî√Ôø∑Z¿ÒZoˆíj:$“æöÛeu€‹Vfiìˆõ€∏€HÖöÌÿ…µ:îPx˙qXîO?â÷°w·’∂⁄∂åg?y§ ±WÙªU‘“‚4.Àí‡ïαpO·Xì˝û;©ÆëB›H€•ë∫Á˚øáJπ£fi^≈5√YñIf)˛(õ®,3√≠flȈˆ®]*Xé™ÄÚüŒµÌÁ”º3„çCWÇ#,1[Ài8\0˙:∆“!•∆©jÃÇ™Ω’N‹Å¯ÒKÆ⁄◊⁄VH$4≠˝ø–ˆ5¥ÌQÔõÀEMË äçUYYf≤L˘ê v©éë6òˇfπàLJ)Ö5sBπ∞ö·÷fi;Dûµë¢Z›œr¨ç£û%Tî/LZ∂Ìic¢¥ÊEi1 ØW…ÔMöˆfiŒ´c¥a“U˛;¿RÇhØÂó˝ê¬Tw ı†gA≠Xiè†ÃEfi/n /∞ì»˛ßˇ^πÕ^V÷4“o’#8ïYI$8Û~ü≠l‹¬nÏ¢øY∑G4¢ÿ1?sé∑ˇZßΩª”|¢I}π∫K’ÅíBPìÔ”Ù≠P:ã˘÷∑ˇ7õÍ?œ‚*?
Î∂∫löfiôs•ÕzuO.I∂$-œÃ√aœLäáƒ76¶Å¡)MDÃeQèïÜ{gúUÔ
ˡcÇ3®∞î…åü¬ªU^nRÈ˙ûsö}Jãå]§ˆ.Ë‘u˚襋Àˆ;N¯ˇ?“Ω[BóDsC˝ïÀÓf?»Á≠Ãä#Là¿’Ëû‘5ïÕæp}œ„_aN˘l~Yâ≈)÷nOSRΫ˛!õÂ˚gëü‡™üëj∑G^nœ^p´É·n¨SwÿãèsìYzßÑÔt≤D÷…Ÿ8©˙†ñ.6#èYd∂€(?ÑÁΩifiMßxœDXK≠µ›èEÔW7%Æ»Aí2†ÚW˚µçqå∂ŒÍ√åÉW;äw3ùu]û3‚ù∆Òt˙éîÚ8ô«ÓY»çàÒ^؇èøà[…˜√Âun∑˘¸Îƒ:åV,∑^!æé÷›πVùˆÁOo†ØÒoÌI‡ˇÖ:ñ®æ
Q¨ÍW,pø‘£î;ôèN≠–gæE|fi2ß_‘˚zôÖÈ∆”ZLÍû3¬
:˜∆’‡≥Slm„˘áù;ÿÍp◊√_ˇlœxÎOü¡æi4-‡ìq$2f‚Ê?BsÄΩÒÄk√¸uÒ∆;÷$÷ºe¨K{rÃZ87~ ;28ÆW9˘à«Ù≠mYù∏|≤ù)∫’uì‹ö‚ÚFa#wfib~f˙ö¨\„öBy¡40\u˝jKinÅ∑#Æ)π(qIìÍiTù’#ä]çÈF∆Ù´(•ÿfiîmoJíä9Ù¢ÄußSÔN‡–¬ÅCg⁄Ö¸™Ò°„ÌB˛4£öA’Ä◊4)¶» ÈJćPdȯ“_¬üCLèΩ¶l”Òä(π4ˇ,„≠P-¨ó*vˆßÖÕ;e8v†ÚÍE\
7”ņ⁄ÖjWÊê
2.3 数据和信息的区别 数据和信息原则上还是不太一样的有些同学也会觉得你搁这给我咬文嚼字呢其实不然大部分情况下还是认为数据是信息的载体,信息是由数据所构成数据是信息重要基础信息是数据的价值体现人类发展就是在不断利用各类数据形成有用的信息这也是数据分析师主要的价值所在。
图2.4 数据与信息 3. 数据的作用 聊了这么久的数据那数据有什么作用呢人们朝九晚五为数据而孜孜不倦工作的又在做些什么呢其实涉及数据相关的范畴一般可以把她划分为三个范畴数据存储数据计算数据应用; 随着互联网数据的大爆炸大家又喜欢在前面加一个大字这个后文博主再细细道来。
图3.1 数据的作用 数据存储把数据看成液体就很好理解因为有不同的液体类型从而衍生出了不同的数据文件就像不同的液体需要不同的存储容器从而衍生出了不同的文件系统。数据计算像不同的液体在源材料上也并非完全纯净所以需要各种过滤提纯等清洗、转换的操作数据也一样的在为了不同数据应用的目的期间需要对数据进行清洗、转换、数据关联等等操作我们统一就叫数据的计算。数据应用其实把数据用起来一些常用的数据如数据可视化、报表、数据查询、专家系统、AI算法等等。 当然围绕数据三大模块为了让数据更好的服务及工作的需要也衍生出了一些其他的数据领域比如围绕数据存储的数据治理数据建模和设计主数据、元数据管理、分布式存储等等围绕数据计算的分布式计算、数据质量、数据血缘等围绕数据应用的数据安全、数据工具等等以及综合了三者的数据平台,数据中台,大数据等等其实本质都是这三者的思想列举的每一块都相对专业一些及有各种的方法论和实践此处因篇幅问题就不在累赘。
4. 数据的那些美好时代 时至今日有些数据的使用、工具和表现形式早已经被数据的使用者潜移默化的认为这些东东不是理所当然的吗其实整个数据的发展也犹如滴水穿石——非一日之功在数据的较早期的时代今天很多理所当然的东西当时实现起来是相当复杂的当然其实很多行业也差不多就像去应聘计算机操作系统的岗位面试题可能是“请在无操作系统的计算机上实现一下鼠标向右移动显示屏上指针跟着向右移动”所以审视过去展望未来一起来看看数据发展的里程也是一趟奇妙的旅行。 大致而言博主喜欢把数据的时代分为四个阶段人脑时代文件时代数据库时代云端时代 图4.1 数据发展的重要时代 4.1 人脑时代 这个时代可以追溯到人类的起源了当然这项数据的技能也伴随我们至今最简单最原始也是最方便的记录、使用数据当然是用我们的大脑把需要的数据存下来然后通过心算或者口算把结果计算出来得到有用的信息供需求方使用。 数据利用人脑存储最有意思的案例可以回到古埃及时期那时候古人的智慧就知道了“勾股定理”即直角三角形的两条直角边上的绳子分别等长打3个结4个结那么斜边就是等长打5个结的绳子就能连接起来。
图4.2 人脑时代 人脑时代数据存储、数据计算数据应用的体现如下 数据存储 大脑 数据计算 大脑 数据应用 各类古建筑的设计五行八卦奇门遁甲的推算……
4.2 文件时代 人脑毕竟太过于随意和任性而且毕竟大脑的存储空间有限当学习的信息越来越多老的信息和数据就会被慢慢遗忘所以可靠性更高的办法就是用文件记录下来当然博主没有说文件时代的出现是以为完全取代人脑时代意思只是出现了一种更加靠谱及普遍的数据存储计算和运用的形式。 文件时代的代表也可以追古溯今从旧石器晚期的壁画到羊皮卷、竹简、造纸术的文本再到现在的电子文件等等无不体现了该文件时代的思想。
图4.3 文件时代 文件时代数据存储、数据计算数据应用的体现如下 数据存储 石壁、竹简、羊皮、绢、纸、电子文件…… 数据计算 大脑计算器 电子文件系统自带的计算引擎 数据应用 各类数据应用
4.3 数据库时代 数据的文件时代确实解决了很多数据的问题但是文件时代也有很多弊端最典型的就是保证数据的一致性、数据检索上有比较明显的瑕疵
数据的一致性博主叫上学时报名叫Rowyet然后这个名字记录上报给了班级文件政教处文件图书馆文件门禁文件等后来博主改名叫Row可能只上报给了班级文件其他地方的文件依然显示博主叫Rowyet。数据检索数据检索最典型的就是电视上如果是纠察一宗十几年前的大案那些卷宗的查阅画面我相信读者们还是很有画面感的。 图4.4 数据库时代 当然文件文件还有其他的一些弊端博主在此就不一一列举了但是有个很有意思的话题不知道发现了没有其实文件时代记录内容的更多的是半结构化的数据为什么这么说呢因为关系型数据要求记录的每一条数据一定要有相同的列每一列一定是相同性质的值但是语文老师叫我们一个句式主谓宾定状补……但是一个句子一定要这些元素都整整齐齐吗答案显然不是这也就导致其实现实生活中的大多数据记录原则上半结构化的形式是更准确的但是半结构化本身是可以转化成结构化的无非就是有些没有的值强行用数学里面的空集或者用一个约定的默认值来填充即可比如很随意的一句话;
// 今天爸爸买票妈妈买零食我要去迪士尼。// 其实就很好转化成3条数据
[
{ who: 爸爸 ,what:买票,when:明天
}
,
{ who: 妈妈 ,what:买票,when:明天
}
,
{ who: 我 ,what:去迪士尼
}
] 基于文件时代的这些现状和弊端也随着计算机和互联网的问世及二者相辅相成的蓬勃发展科学家们就构想有没有一台计算机可以统一存储这些数据所有人编辑和查阅这些数据都是利用网络来访问这台计算机这样大家不就拿到的数据一致了吗人们终于意识到计算机的计算能力可以远远高于人类那就把数据检索的任务也交给计算机呗后来的大家都知道了这台计算机叫服务器计算机上装的软件它叫数据库。 但是其实很多文件记录的数据大多数还是比较偏向于半结构化数据科学大佬们发现以文件数据内容本身的结构及当时的计算机的智能和计算水平并不能很好的处理于是就先定义了关系模型于是拉开的关系型数据库的帷幕 系统而严格地提出关系模型的是美国IBM公司的埃德加·弗兰克·科德Edgar Frank “Ted” Codd1970年提出关系数据模型“A Relational Model of Data for Large Shared Data Banks”, 《Communication of the ACM》,19705页1974 IBM公司 “System R” →SQL语言加州大学伯克利分校 “Ingres” →QUEL语言1988年两系统均获得ACM的“软件系统奖”。 图4.5 关系型数据库之父——埃德加·弗兰克·科德Edgar Frank “Ted” Codd 于是关系型数据库开始继续前行关系型数据库发展的道路上出现了许多著名的公司和产品这里博主也列举一二 IBM在关系型数据库上的故事 1977年IBM完成System R原型 1982年IBM推出第一个关系数据库产品 IBM产品化步伐缓慢的原因 1. IBM重视信誉、重视质量尽量减少故障。 2. IBM公司内部有非常成熟的层次数据库产品。 Oracle在关系型数据库上的故事 Oracle前身叫SDL由Larry Ellison和另外两个编程人员在1977年创建。 开发自己的拳头产品关系型数据库产品。 做事的三个要点 1. 不做研究只做产品开发 2. 尽快的速度推出产品为第一目标 3. 产品能够跨平台运行。 一个数据库、两个客户、三个操作系统、五个人。 80年代后关系数据库管理系统(RDBMS)成为最重要、最流行的数据库管理系统。 典型实验系统 System R University INGRES典型商用系统 ORACLE SYBASE INFORMIX DB2 INGRES SQLSERVER 随着关系型数据库发展的极大成功加上计算机能力的发展科学大佬们还是发现了某些特定的场合一味的追求空集或者约定的默认值去填补达到关系型数据并不是最佳的解答数据的途径比如经典的场景就是俄罗斯套娃环节你甚至都不知道要循环套几次于是非关系型数据库悠然而生。 非关系型数据库又被称为NoSQL(Not Only SQL )意为不仅仅是SQL( Structured QueryLanguage结构化查询语言)据维基百科介绍NoSQL最早出现于1998 年是由Carlo Storzzi最早开发的个轻量、开源、不兼容SQL 功能的关系型数据库2009 年在一次分布式开源数据库的讨论会上再次提出了NoSQL 的概念此时NoSQL主要是指非关系型、分布式、不提供ACID (数据库事务处理的四个基本要素)的数据库设计模式。同年在亚特兰大举行的NoSQL(east)“讨论会上对NoSQL 最普遍的定义是非关联型的”强调Key-Value 存储和文档数据库的优点而不是单纯地反对RDBMS至此NoSQL 开始正式出现在世人面前典型的非关系型数据库代表有MongoDB、CouchDB、Hbase、Redis等等。 图4.6 非关系型数据结果解决俄罗斯套娃问题 当然根据数据库不同的特性某些特定的数据库也会称为内存数据库、时序数据库等等这里就不一一展开讨论了。
4.3.1 大服务器时代 这个时代的其实各行各业都会出现就像当年汽车行业追求汽车的最快速度一样为谁家的汽车跑的直线速度最快而努力奋斗着其实数据库也一样各大厂商都为自己的数据库高并发高吞吐高响应而自豪于是各种数据库的服务器性能不断随之提升伴随着CPU、内存的发展数据库服务器的能力也水涨船高但是在类似中国这样地大物博的国度再大的数据库还是扛不住某些特殊事情的高峰值访问如电商的双11节假日的火车票等等依然对数据的服务器是巨大的挑战。
4.3.2 读写分离时代 尽管大服务器性能够强但是挑战依然在这个时候就好比一匹马拉不动货物人们除了培育出更加强壮的马其实往往会多用几匹马来拉货那更强壮的马就好比大服务器已经有了且达到极限了就必须多几匹马了于是就有了数据库的从库技术利用从库从主库里面不断同步数据数据编辑的业务统统往主库进行而数据检索数据查询的业务统统在从库进行从而实现数据库的读写分析达到数据的负载均衡来针对特殊的数据高峰访问期。
图4.7 数据库读写分离 时至今日读写分离的方案又有了新的进展其实结合读写的业务仔细看来大家发现数据写入最大的核心是为了要遵循数据库的事物其实就是保证数据在编辑后存回到数据库不会紊乱比如总共有200张票购买了199张那么最后有5个人再购买这张票就只能按照先后顺序告诉他们其实只有一个人的购票请求成功了其他人的请求全部得反馈已经没有票了这一套操作也称之为联机事务处理(OLTP,On-Line Transaction Processing)而数据库的读呢其实就是为了更好的检索查询数据其实并没有这种保证数据库事物的复杂操作更多的是数据检索后再数据分析得到想要的数据结果给到数据应用因此这一套操作又称为联机分析处理(OLAP,Online Analytical Processing)。 图4.8 OLAP和OLTP 渐渐大家也意识到OLTP和OLAP其实是可以分开处理的期间其实就是差了一个数据的订阅罢了说白了就是需要有方式把数据从OLTP同步OLAP数据库就完成了这一壮举实现这个方式的方法论离线批处理的叫数据的ETL(抽取[extract]、转换[transform]、加载[load])具体代表工具有informatica、talend、kettle、datax、seatunnel等实现这个方式的方法论实时流处理的方法论叫CDC(change data capture),即变化数据捕捉。是数据库进行备份的一种方式具体代表工具有canal、maxwell、flink cdc、debezium等 图4.9 常用的CDC 一定要OLTP和OLAP分开吗其实准确来说也是要看数据量和你的目的如果你的数据应用项目数据量并不大当然是怎么省钱怎么来啦但是一旦数据量到了一定的瓶颈那就得认真看看两者的区别了既然OLTP数据库放在了遵循数据库事物的数据库里面OLAP应该放在什么数据库合适呢这就要揭开下一节数据库的分布式时代。
4.4 数据库的分布式时代 面对数据大爆炸本质是随着计算机、网络、数字化的发展人们搬到互联网上的数据增多了而非这个世界的数据瞬间增多了多少的袭来面对这样一个大数据的时代OLTP和OLAP的矛盾也愈演愈烈OLTP还可以通过拆库拆表的形式应付但是OLAP数据的分析还是要回归到全域的数据这种矛盾优先在国际化的一些互联网公司出现于是谷歌在2003到2006年间发表了三篇论文《MapReduce: Simplified Data Processing on Large Clusters》《Bigtable: A Distributed Storage System for Structured Data》和《The Google File System》介绍了Google如何对大规模数据进行存储和分析这三篇论文开启了工业界的大数据时代也使数据库的分布式架构得到空前的发展。 什么是数据的分布式架构呢其实本质的思想和上文说到的一匹马拉不动货物人们除了培育出更加强壮的马其实往往会多用几匹马来拉货是一样的说白了就是有一套架构让原来的单机版有数据库以集群的模式对外服务目前业内比较主流的分布式架构主要MPP架构和主从架构。
MPPMassively Parallel Processing架构 类似春秋战国的分封制各大诸侯内部自带处理政务的一套班子。周天子名义上把大家组成了一个国家MPP各个节点自带计算能力的CPU和内存各个节点又组成了一个数据库集群能够通过将工作负载分散到多个节点上来提高数据处理性能与传统的共享架构不同MPP采用非共享架构Share Nothing将单机数据库节点组成集群每个节点拥有独立的磁盘和内存系统通过专用网络或商业通用网络连接彼此、协同计算从而提供整体数据处理服务在设计上MPP架构优先考虑一致性Consistency其次考虑可用性Availability同时尽量做到分区容错性Partition Tolerance大数据组件里面Teradata、Impala、ClickHouse、Druid、Doris等都是MPP架构。
图4.10 MPP架构 主从Master-Slave架构类似秦朝之后的中央集权制度有个中枢大脑掌管一切但是中枢大脑只负责协调和分配资源这些统筹兼顾的事情真实的任务是在中枢大脑的统筹兼顾下在各个子节点上完成的主从master/slave架构也是通常包含一个主节点和多个从节点。主节点统筹兼顾资源和调度主节点也记录元数据即文件块位置、权限、大小、其实地址等等从节点存储文件真实数据块从节点也负责数据的计算把计算结构上报给主节点再返回给请求的客户端大数据组件里面hadoop、hive、spark、flink等都是主从架构。 图4.12 主从架构 当然除了主架构层面为了更好的实现OLAP专家大佬们也打起了文件存储格式的注意首先是文件格式的优化从我们常用的txt、csv、excel文本类型等结合文件格式和压缩方式做成压缩率更高读取时解压率更快的先进文件格式和压缩格式同时还发现原有的OLTP为了满足数据库事务来响应数据编辑用的都是行存储但是大多数OLAP都是为了对某几列维度上卷、下钻、多维分析及上文讲到每一列的数据性质是一样的列存储显然在压缩时因为数据性质相同的原因压缩比率大大提高因此大多数OLAP又采用了列存储的文件。
图4.13 行存储与列存储 结合列存储和高压缩率高解压率的特性产生了很多优秀的大数据文件格式和压缩格式如parquet文件snappy压缩、orc文件gzip压缩等对于大数据文件的深究都可以有兴趣可以参考博主的另一篇文章RC ORC Parquet之大数据文件存储格式的一哥之争。
图4.14 大数据文件性能参考 伴随着分布式的先进思想各大企业纷纷开启对自己数据库的改革八仙过海——各显神通在使用功能层面确实使得各大数据库的能力得到了空前的发展。但是为什么有些大数据组件成功了有些却失败了呢可能的原因有很多吧其实比较大的一个原因之一博主认为是因为钱为什么这么说呢这得从hadoop的问世说起。 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统 Distributed File System其中一个组件是HDFSHadoop Distributed File System。HDFS有高容错性的特点并且设计用来部署在低廉的low-cost硬件上而且它提供高吞吐量high throughput来访问应用程序的数据适合那些有着超大数据集large data set的应用程序。HDFS放宽了relaxPOSIX的要求可以以流的形式访问streaming access文件系统中的数据。Hadoop的框架最核心的设计就是HDFS和MapReduce。HDFS为海量的数据提供了存储而MapReduce则为海量的数据提供了计算 [1] 。 其实不难发现很多商业数据库单机版本已经很贵了再升级成集群功能上自然是解决了但是实际带来的费用账单呢自然也是是也成倍的提升了有些读者可能会觉得瞧不起钱公司这点钱花不起吗果真如此吗从古至今这都是一个有趣的话题杨广下江南花费太高公司垮了自己也成了昏君乾隆下江南公司有钱没垮成了千古佳话现代的操作系统也体现了这个思想window在国内经久不衰的流传的真正手段是啥Linux的CentOS被Oracle收购后免费的稳定版本不再对外开放马上没什么用户了这其中的奥妙相信读者自然知晓大数据的数据库架构也是这个道理这就导致近几年以来大公司要么自建自己的大数据集群要么从原来的商业数据库迁移到更廉价的大数据框架里面来。 当然也有另一个话题也有科学大佬尝试把OLTP和OLAP整合到一个数据库工具里面目前方法论上有很多但是实际落地的实现本质还是给原始的数据库新增了适应OLAP的文件格式和数据库引擎此套操作国内有些数据库厂家也取得不错的成绩。
4.5 云端时代 云端时代就是一些云厂商把这些所有的IT、大数据工具整合到一起然后再利用网络对你开放再按需收费对于使用者而言这一些组件封装在云厂商的机房内你并不知道其中的细节但是确实解决了你不少的问题感觉这一切就好比云一样看不见摸不着又又神秘但是也使得你可以不用花过多的精力在这些基础设施的建设上但是账单里面肯定是显示这个成本肯定是要比上一代的商业数据解决方案要省钱的云时代大家接触比较多的可能是云存储比如某某网盘为了趁一把这个云的概念于是大家把自建的大数据集群叫私有云把第三方的叫公有云。 图4.15 云端时代 5. 数据的未来 其实这个问题博主也不能说看的很远但是结合ChatGPT的成熟发展和语音功能的迭代每个企业自己私有化的人工智能管家代替目前的表哥、表姐和查数姑是必然的趋势吧从而更好的实现数据即资产数据即服务。 这里博主也想分享自己的一个小故事在高校参加数据建模竞赛的培训上有一道考题是如何使医院的床位数和每天的病人之间有个最优化的配套设置好各种背景和假设后所有的同学都在埋头苦干写代码求解最终老师开始讲解最后的方案是我们导师用一根粉笔把在黑板上解开了当时所有小伙伴震惊的问到:这东西不需要编程计算吗导师说:谁告诉你一定要编程解的这个小故事也送给今天的读者们吧没错随着数据技术的不断发展确实会踊跃出很多智能化的工具和解决方案但是大家也不能忘了我们的初衷和解决问题的本质所以也建议数据工作者们除了数据的专业素养以外也能多掌握一些这个行业的专业背景因为谁知道呢或许你有数据能力你有专业背景再利用数字化的能力你真的能改变这个行业反而不懂业务的数据确实有些耍流氓的嫌疑吧。 最后的最后也摘一段ChatGPT对这个问题的答案给读者们一个专业且官方的回答吧…… 大数据的未来发展趋势可从以下几个方面进行概括 数据资源化大数据已经成为企业和社会关注的重要战略资源成为新的竞争焦点。企业需提前制定大数据营销战略计划抢占市场先机。 与云计算的深度集成大数据技术与云计算技术将深度融合实现数据的快速处理、分析和共享为企业提供更强大的决策支持。 数据治理和数据安全随着数据量的不断增大数据治理将变得越来越重要。同时数据安全问题也会成为一个越来越重要的问题随着黑客攻击和数据泄露事件的增加企业和政府将更加重视数据安全问题。 数据科学和数据联盟的成立未来数据科学将成为一个重要的学科领域更多的研究和创新将围绕数据科学展开。此外企业和政府将建立更多的数据联盟共享数据资源共同推动大数据技术的发展和应用。 应用领域的拓展大数据技术将在政府、金融、电信、交通、制造等多个行业领域得到广泛应用助力各行业实现智能化、高效化的发展。 人工智能与大数据的结合人工智能技术的发展将推动大数据技术在更多领域应用如智能制造、智能交通、智能医疗等。通过人工智能与大数据的结合可以更好地挖掘数据中的潜在价值为社会创造更多的智能应用。 总之大数据将在未来继续保持快速增长态势其在各个领域的应用将不断拓展同时数据治理、数据安全、人工智能等方面也将成为大数据发展的重要驱动力。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/92719.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!