什么是大数据

转载自  玻璃猫 程序员小灰








大数据是具有海量、高增长率和多样化的信息资产,它需要全新的处理模式来增强决策力、洞察发现力和流程优化能力。


Big data is high volume, high velocity, and/or high variety information assets that require new forms of processing to enable enhanced decision making, insight discovery and process optimization.












































大数据通常都拥有海量的数据存储。仅根据2013年的统计,互联网搜索巨头百度已拥有数据量接近EB级别、阿里、腾讯声明自己存储的数据总量都达到了百PB以上。此外,电信、医疗、金融、公共安全、交通、气象等各个方面保存的数据量也都达到数十或者上百PB级别。


面对这样规模的数据存储量,依靠单台数据库服务器显然是不够的,需要以分布式文件系统(例如 HDFS)作为基石。











在传统的关系型数据库中,所存储的数据都是结构化的,例如:




但是在现实生活中,信息往往并没有严格的结构限制。比如一个电商网站需要记录如下用户行为:


用户张三, 于某某时间在商品搜索栏搜索了“苹果手机”一词,然后进入 XXX 商铺进行浏览,经过与店家沟通,讨价还价,最终以6000元的价格购买了 iPhone 7 “钢琴黑”款式手机一部。


诸如此类的用户行为数据属于非结构化数据,很难用关系型数据库存储。因此诸多No-SQL数据库(例如 HBase)成为了存储大数据的更好选择。










如果没有更加快速有效的海量数据解决方案,那么如此大量多样的数据不但没有带来更多价值,反而成为了系统的负担。关于这一点,谷歌公司率先提出的MapReduce模型为我们带来了新的道路。


MapReduce可以简单的理解成一种分治方法:把庞大的任务分成若干小任务,交给多个节点进行并行处理,然后再把所有节点的处理结果合并起来,从而大大提升了数据处理效率。(关于MapReduce的详细流程,将会在以后的文章中进行讲解。)











人工智能:




以大数据作为机器学习的训练集,从而训练出拥有一定决策能力的人工智能。典型的代表案例就是谷歌的AlphaGo, 通过大量围棋棋局的学习,最终拥有了打败围棋世界冠军的能力。



商业分析:




从大量的用户行为数据中挖掘出有价值的商业信息。典型代表是著名社交公司LinkedIn,他们通过用户之间的关联关系,绘画出学校、公司、人才之间庞大而复杂的信息网络。不仅如此,LinkedIn还通过大量求职者和招聘方的信息,分析出哪些公司正在迅速扩张,哪些公司正在流失人才,哪些公司之间正在展开人才市场的争夺。这些对于客户公司来说,都是无价之宝。



犯罪预测:




洛杉矶警察局曾经借助一套原本用于预测地震后余震的大数据模型,把过去80年内的130万个犯罪记录数据输入进去,结果发现其预测出的犯罪高发地点与现实惊人的吻合。后来该预测算法经过改进,已经成为了当地警局重要的参考依据,大大降低了当地的犯罪率。







这里所介绍的相关知识,只是作者对于大数据领域的浅层次理解。通过这篇漫画,希望没有从事过IT行业,或者不了解大数据的朋友们能够对大数据有一些初步的认知。




本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/331288.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java 记录考勤记录_Java 14:记录

java 记录考勤记录Java 14是在几周前问世的,它引入了Record类型,它是一个不变的数据载体类,旨在容纳一组固定的字段。 请注意,这是一种预览语言功能 ,这意味着必须使用--enable-preview标志在Java编译器和运行时中显式…

漫画:什么是HashMap

转载自 玻璃猫 程序员小灰众所周知,HashMap是一个用于存储Key-Value键值对的集合,每一个键值对也叫做Entry。这些个键值对(Entry)分散存储在一个数组当中,这个数组就是HashMap的主干。 HashMap数组每一个元素的初始值都…

jvm(10)-早期(编译期)优化

【0】README 0.1)本文部分文字描述转自 “深入理解jvm”,旨在学习 早期(编译期)优化 的基础知识; 0.2)本文部分文字描述转自: http://www.cnblogs.com/zhouyuqin/p/5223180.html 【1】概述 …

etl介绍与etl工具比较_ETL万岁

etl介绍与etl工具比较提取转换负载是从一个数据系统中提取数据并加载到另一个数据系统中的过程。 涉及的数据系统称为源系统和目标系统。 来自源系统的数据形状与目标系统不匹配,因此需要进行一些转换以使其兼容,该过程称为Transformation 。 转换是由m…

漫画:高并发下的HashMap

转载自 玻璃猫 程序员小灰上一期我们介绍了HashMap的基本原理, 这一期我们来讲解高并发环境下,HashMap可能出现的致命问题。HashMap的容量是有限的。当经过多次元素插入,使得HashMap达到一定饱和度时,Key映射位置发生冲突的几率会…

jvm(11)-晚期(运行期)优化

【0】README 0.1)本文部分文字描述转自 “深入理解 jvm”,旨在学习 晚期(运行期)优化 的基础知识; 【1】概述 1)即时编译器(JITjust in time compiler)定义:为了提高…

java 新功能_Java 14的新功能

java 新功能2020年3月17日,Oracle发布了名为Java 14的Java新版本,其中包括许多新功能,工具,安全性,调试和更新的文档方面的改进。 但是,Oracle还向您提供Java的较旧版本,因为它具有向后兼容性&a…

漫画:什么是ConcurrentHashMap

转载自 玻璃猫 程序员小灰————————————————————————前两期我们讲解了HashMap的基本原理,以及高并发场景下存在的问题。没看过的小伙伴可以点击下面链接:漫画:什么是HashMap? 漫画:高并发下的H…

jvm(12)-java内存模型与线程

【0】README0.1)本文部分文字描述转自“深入理解jvm”,旨在学习“java内存模型与线程” 的基础知识;【1】概述1)并发处理的广泛应用是使得 Amdahl 定律代替摩尔定律称为计算机性能发展源动力的根本原因;2)A…

junit mockito_从工作中清除代码–使用JUnit 5,Mockito和AssertJ编写可执行规范

junit mockito可执行规范是也可以用作设计规范的测试。 通过启用通用语言(在DDD世界中,这也称为无处不在的语言 ),它们使技术和业务团队能够进入同一页面。 它们充当代码的未来维护者的文档。 在本文中,我们将看到一种…

漫画:什么是红黑树

转载自 玻璃猫 程序员小灰————————————二叉查找树(BST)具备什么特性呢?1.左子树上所有结点的值均小于或等于它的根结点的值。 2.右子树上所有结点的值均大于或等于它的根结点的值。 3.左、右子树也分别为二叉排序树。下图中这棵树…

jvm(13)-线程安全与锁优化

【0】README 0.1)本文部分文字转自“深入理解jvm”, 旨在学习 线程安全与锁优化 的基础知识; 0.2)本文知识对于理解 java并发编程非常有用,个人觉得,所以我总结的很详细; 【1】概述 【2】线程安…

apache ignite_Kubernetes集群上的Apache Ignite和Spring第3部分:测试应用程序

apache ignite在上一个博客中,我们为Ignite应用程序创建了Kubernetes部署文件。 在此博客上,我们将在Kubernetes上部署Ignite应用程序。 我将在此使用minikube。 让我们先构建 mvn clean install 我将创建一个简单的Docker映像,因此需要Doc…

什么是AES算法?(整合版)

转载自 玻璃猫 程序员小灰 假设有一个发送方在向接收方发送消息。如果没有任何加密算法,接收方发送的是一个明文消息:“我是小灰” 如果消息被中间人截获到,即使中间人无法篡改消息,也可以窥探到消息的内容,从而暴露了…

soapui 测试soap_使用SoapUI调用不同的安全WCF SOAP服务-基本身份验证,第二部分

soapui 测试soap在本系列的第一篇文章中,我们创建了一个基本的身份验证服务,以使用SoapUI进行调用。 因此,在第二篇文章中,我们将逐步演示如何使用此工具成功调用这种服务。 使用SoapUI的1-Basic WCF SOAP –创建新的SOAP项目 首…

如何获得即时编译器(JIT)的汇编代码(linux环境下)

【0】README0.1)本文主要解决如何在linux下获取即时编译器的汇编代码问题;0.2)本文部分内容转自:http://psy-lob-saw.blogspot.jp/2013/01/java-print-assembly.html1)给定java源代码// 单例模式(分析volat…

漫画:什么是SHA系列算法

转载自 玻璃猫 程序员小灰 SHA-1 SHA-1算法可以从明文生成160bit的信息摘要,示例如下: 给定明文:abcd SHA-1摘要:81FE8BFE87576C3ECB22426F8E57847382917ACF SHA-1 与 MD5的主要区别是什么呢? 1.摘要长度不同。 …

apache ignite_Kubernetes集群上的Apache Ignite和Spring第1部分:Spring Boot应用程序

apache ignite在之前的一系列博客中,我们在Kubernetes集群上启动了一个Ignite集群。 在本教程中,我们将使用先前在Spring Boot Application上创建的Ignite集群。 让我们使用Spring Boot创建我们的项目。 Spring Boot应用程序将连接到Ignite集群。 让我…

tomcat(1)一个简单的web server

【0】README 0.1)本文部分描述转自“深入剖析tomcat”, 旨在学习 一个简单的web server 的基础知识; 0.2)for complete source code, please visit https://github.com/pacosonTang/HowTomcatWorks/tree/master/chapter1 【1】…

漫画:什么是MD5算法

转载自 玻璃猫 程序员小灰 摘要哈希生成的正确姿势是什么样呢?分三步: 1.收集相关业务参数,在这里是金额和目标账户。当然,实际应用中的参数肯定比这多得多,这里只是做了简化。 2.按照规则,把参数名和参数…