Hadoop学习一（初识大数据）

news/2026/1/22 12:29:19/文章来源:https://blog.csdn.net/jojo_oulaoula/article/details/132429748

目录

一什么是大数据？

二大数据特征

三分布式计算

四 Hadoop是什么?

五 Hadoop发展及版本

六为什么要使用Hadoop

七 Hadoop vs. RDBMS

八 Hadoop生态圈

九 Hadoop架构

一什么是大数据？

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

大数据技术要解决的问题：海量数据存储和海量数据计算

二大数据特征

4V特征
- Volume(大数据量)：90% 的数据是过去两年产生
- Velocity(速度快)：数据增长速度快，
- 时效性高 Variety(多样化)：数据种类和来源多样化结构化数据（如表形式的数据）、半结构化数据（如 json）、非结构化数据（如日志信息）
- Value(价值密度低)：需挖掘获取数据价值
固有特征
- 时效性
- 不可变性

三分布式计算

分布式计算将较大的数据分成小的部分进行处理。

	传统分布式计算	新的分布式计算 - Hadoop
计算方式	将数据复制到计算节点	在不同数据节点并行计算
可处理数据量	小数据量	大数据量
CPU性能限制	受CPU限制较大	受单台设备限制小
提升计算能力	提升单台机器计算能力	扩展低成本服务器集群

四 Hadoop是什么?

Hadoop是一个开源分布式系统架构，解决海量数据存储和海量数据计算的问题
处理海量数据的架构首选
非常快得完成大数据计算任务
已发展成为一个Hadoop生态圈

五 Hadoop发展及版本

Hadoop起源于搜索引擎Apache Nutch
- 创始人：Doug Cutting
- 2004年 - 最初版本实施
- 2008年 - 成为Apache顶级项目
Hadoop发行版本
- 社区版：Apache Hadoop
- Cloudera发行版：CDH
- Hortonworks发行版：HDP

六为什么要使用Hadoop

高扩展性
- 在集群间分配任务数据，可方便的扩展数以千计的节点
高可靠性
- Hadoop底层维护多个数据副本
高容错性
- Hadoop框架能够自动将失败的任务重新分配
低成本
- Hadoop架构允许部署在廉价的机器上
灵活，可存储任意类型数据
开源，社区活跃

七 Hadoop vs. RDBMS

Hadoop与关系型数据库对比

	RDBMS	Hadoop
格式	写数据时要求	读数据时要求
速度	读数据速度快	写数据速度快
数据监管	标准结构化	任意结构数据
数据处理	有限的处理能力	强大的处理能力
数据类型	结构化数据	结构化、半结构化、非结构化
应用场景	交互式OLAP分析 ACID事务处理企业业务系统	处理非结构化数据海量数据存储计算

八 Hadoop生态圈

九 Hadoop架构

HDFS(Hadoop Distributed File System)
- 分布式文件系统，解决分布式存储
MapReduce
- 分布式计算框架
YARN
- 分布式资源管理系统在Hadoop 2.x中引入
Common
- 支持所有其他模块的公共工具程序

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/55443.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

vscode 配置

vscode 配置

vscode 配置安装插件 Better C SyntaxC/CCMake、CMake Tools 、CMake Language SupportDoxygen Documentation GeneratorGit Graphhighlight-wordsPythonvscode-iconsClang-Format和clangdtyporahex editor .vscode 中的文件在 VS Code 中，.vscode 文件夹是用于…

阅读更多...

vue3 基础知识（生命周期） 06

vue3 基础知识（生命周期） 06

你好！ 文章目录一、生命周期二、生命周期过程三、组件的 v-model 一、生命周期每个组件都可能从创建、挂载、更新、卸载等一系列的过程在这个过程中的某一个阶段，用于可能会想要添加一些属于自己的代码逻辑（比如组件创建完成后请求一些…

阅读更多...

各种中间件的默认端口

各种中间件的默认端口

面试时会忘记个别中间件端口 docker：2375 nacos：8848 redis：6379 rabbitMq: 5672(后台配置的端口)15672（web管理界面）账号：guest15674（web STOMP插件）：通过WebSocket…

阅读更多...

SpringBoot案例-配置文件-yml配置文件

SpringBoot案例-配置文件-yml配置文件

配置格式 SpringBoot提供了多种属性配置方式 application.propertiesapplication.ymlapplication.yaml常见配置文件格式对比 XML（臃肿） <configuration><database><host>localhost</host><port>3306</port><use…

阅读更多...

【springboot】WebScoket双向通信：

【springboot】WebScoket双向通信：

文章目录一、介绍：二、案例：三、使用：【1】导入WebSocket的maven坐标【2】导入WebSocket服务端组件WebSocketServer，用于和客户端通信【3】导入配置类WebSocketConfiguration，注册WebSocket的服务端组件【4】导入定时…

阅读更多...

裂缝检测，只依赖OPENCV，基于YOLO8S

裂缝检测，只依赖OPENCV，基于YOLO8S

裂缝检测，只依赖OPENCV，YOLOV8S 现在YOLOV8S训练目标非常方便，可以直接转换成ONNX让OPENCV调用，支持C/PYTHON，原理很简单，自己找博客，有兴趣相互交流

阅读更多...

VUE3 ---＞vue-router4 获取路由对象与参数

VUE3 ---＞vue-router4 获取路由对象与参数

#记录# 1. 创建路由实例由 createRouter 实现 2. 路由模式 history 模式使用 createWebHistory() hash 模式使用 createWebHashHistory() 地址栏带 # 参数是基础路径，默认/ 路由的基础地址是 vite.config.js中的 base 配置的值， 默认是 /…

阅读更多...

Redis使用

Redis使用

环境配置代码实现 Java public CoursePublish getCoursePublishCache(Long courseId){//查询缓存Object jsonObj redisTemplate.opsForValue().get("course:" courseId);if(jsonObj!null){String jsonString jsonObj.toString();System.out.println("从缓…

阅读更多...

Redis之stream类型解读

Redis之stream类型解读

目录基本介绍数据结构消息消费组消费者基本使用命令概述 xadd 命令 xtrim 命令 xdel 命令 xlen 命令 xrange 命令 xread 命令 xgroup 命令 xreadgroup 命令 xack 命令基本介绍 Redis stream（流）是一种数据结构，其…

阅读更多...

基于React实现无限滚动的日历详细教程，附源码【手写日历教程第二篇】

基于React实现无限滚动的日历详细教程，附源码【手写日历教程第二篇】

前言最常见的日历大部分都是滚动去加载更多的月份，而不是让用户手动点击按钮切换日历月份。滚动加载的交互方式对于用户而言是更加丝滑和舒适的，没有明显的操作割裂感。那么现在需要做一个这样的无限滚动的日历，前端开发者应该如何去思考…

阅读更多...

maven下载不了仓库地址为https的依赖jar，配置参数忽略ssl安全检查

maven下载不了仓库地址为https的依赖jar，配置参数忽略ssl安全检查

问题原因私服使用的https地址，然后安全证书过期的或没有，使用maven命令时，可以添加以下参数，忽略安全检查 mvn -Dmaven.wagon.http.ssl.insecuretrue -Dmaven.wagon.http.ssl.allowalltrue -Dmaven.wagon.http.ssl.ignore.vali…

阅读更多...

前端面试：【网络协议与性能优化】HTTP/HTTPS、TCP/IP和WebSocket

前端面试：【网络协议与性能优化】HTTP/HTTPS、TCP/IP和WebSocket

嗨，亲爱的Web开发者！在构建现代Web应用时，了解网络协议是优化性能和确保安全性的关键。本文将深入探讨HTTP/HTTPS、TCP/IP和WebSocket这三个网络协议，帮助你理解它们的作用以及如何优化Web应用的性能。 1. HTTP/HTTPS协议&#xf…

阅读更多...

慕课网 Go工程师第三周 package和gomodules章节

慕课网 Go工程师第三周 package和gomodules章节

Go包的引入： 包名前面加匿名，只引入但不使用，如果对应包有init函数，会执行init函数（初始化操作） 包名前面加. 把这个包的结构体和方法导入当前包，慎用，你不知道当前包和被引入的包用…

阅读更多...

数据库事务四大特性

数据库事务四大特性

事务的4大特性（ACID）： 原子性(Atomicity)： 事务是数据库的逻辑工作单位，它对数据库的修改要么全部执行，要么全部不执行。一致性(Consistemcy)： 事务前后，数据库的状态都满足所有的完…

阅读更多...

Redis内存空间预估与内存优化策略：保障数据安全与性能的架构实践AIGC/AI绘画/chatGPT/SD/MJ

Redis内存空间预估与内存优化策略：保障数据安全与性能的架构实践AIGC/AI绘画/chatGPT/SD/MJ

推荐阅读 AI文本 OCR识别最佳实践 AI Gamma一键生成PPT工具直达链接玩转cloud Studio 在线编码神器玩转 GPU AI绘画、AI讲话、翻译,GPU点亮AI想象空间资源分享「java、python面试题」来自UC网盘app分享，打开手机app，额外获得1T空间 https://dr…

阅读更多...

基于YOLOV8模型的课堂场景下人脸目标检测系统（PyTorch+Pyside6+YOLOv8模型）

基于YOLOV8模型的课堂场景下人脸目标检测系统（PyTorch+Pyside6+YOLOv8模型）

摘要：基于YOLOV8模型的课堂场景下人脸目标检测系统可用于日常生活中检测与定位课堂场景下人脸，利用深度学习算法可实现图片、视频、摄像头等方式的目标检测，另外本系统还支持图片、视频等格式的结果可视化与结果导出。本系统采用YOLOv8目标检…

阅读更多...

PHP自己的框架cookie()使用（完善篇七）

PHP自己的框架cookie()使用（完善篇七）

1、PHP自己的框架cookie() 2、cookie类（CookieBase.php） <?php class CookieBase {/*** 设置cookie*/public static function set($name, $value, $expire 3600, $path , $domain , $secure false, $httponly false) {setcookie($name, $valu…

阅读更多...

dart 学习列表 List

dart 学习列表 List

List 列表在 Dart 编程语言中，List 是一种有序的集合数据类型，用于存储一系列项目。它允许您在单个变量中存储多个项目，并提供了许多操作来管理列表中的数据。以下是关于 Dart 中的 List 的一些重要信息： 创建 List： …

阅读更多...

字节律动之*你太美, emm 其实是个字符画雪花视频-哈哈哈-将视频转成一张张字符画图片

字节律动之*你太美, emm 其实是个字符画雪花视频-哈哈哈-将视频转成一张张字符画图片

效果整体效果局部图片放大效果视频转换后带雪花特效,凑合看吧, 视频地址准备工作安装FFmpeg 电脑上安装ffpeg处理视频并设置环境变量, windows可以参考FFmpeg的安装教程这篇博客安装 mac可以直接执行brew install ffmpeg安装安装python依赖包执行pip3 install -…

阅读更多...

2023前端面试笔记 —— CSS3

2023前端面试笔记 —— CSS3

系列文章目录内容链接2023前端面试笔记HTML52023前端面试笔记CSS3 文章目录系列文章目录前言一、CSS选择器的优先级二、通过 CSS 的哪些方式可以实现隐藏页面上的元素三、px、em、rem之间有什么区别？四、让元素水平居中的方法有哪些五、在 CSS 中有哪些定位方式六…

阅读更多...

最新文章