大数据Hadoop入门1

目录

相关资料

第一部分

1.课程内容大纲和学习目标

2.数据分析和企业数据分析方向

3.数据分析基本流程步骤

4.大数据时代

5.分布式和集群

6.Linux操作系统概述

7.VMware虚拟机概念与安装

8.centos操作系统的虚拟机导入

9.VMware虚拟机常规使用、快照

第二部分

1.课程内容大纲-学习目标

2.Apache Hadoop介绍、发展简介、现状

3.Apache Hadoop特性优点、国内外应用

4.Apache Hadoop发行版本、架构变迁

5.Apache Hadoop安装部署--集群组成介绍

6.Apache Hadoop安装部署--服务器基础环境设置

7.Apache Hadoop安装部署--安装包结构

8.Apache Hadoop安装部署--修改配置文件、同步安装包和环境变量

9.Apache Hadoop安装部署--format初始化操作

10.Apache Hadoop安装部署--集群启停命令、web UI页面

11.Apache Hadoop安装部署--初体验

12.传统文件系统在大数据时代面临的挑战

13.场景互动:分布式存储系统的核心属性及功能作用

14.HDFS简介、设计目标和应用场景

15.HDFS重要特性解读

16.HDFS shell命令行解释说明

17.HDFS shell命令行常用操作

18.HDFS工作流程与机制--各角色职责介绍与梳理

19.HDFS工作流程与机制--写数据流畅--pipeline、ack、副本策略

20.HDFS工作流程与机制--写数据流畅--梳理


相关资料

  • 教程资源: https://pan.baidu.com/s/1WYgyI3KgbzKzFD639lA-_g 提取码: 6666
  • 本套视频笔记:https://upward.blog.csdn.net/article/details/129232552

第一部分

1.课程内容大纲和学习目标

2.数据分析和企业数据分析方向

3.数据分析基本流程步骤

4.大数据时代

5.分布式和集群

6.Linux操作系统概述

7.VMware虚拟机概念与安装

8.centos操作系统的虚拟机导入

课程配置了三台虚拟和大数据相关软件

安装虚拟机的时候会随机生成一个网段

但课程资料提供的都是88网段

第二步修改Windows本地的网卡

后面需要通过Windows笔记本去访问各个虚拟机

如果网站不在一个网段,则无法访问

这样我们的虚拟机和本地都处于88网段

双击后就会自动被我们的虚拟机打开

ifconfig

ping

9.VMware虚拟机常规使用、快照

本课程使用的node1是4G,node2和3都是2G

挂起就是关机再开机的时候,会恢复到我们挂起的状态

本课程提供了三种快照,如果不想安装,可直接点击使用

第二部分

1.课程内容大纲-学习目标

2.Apache Hadoop介绍、发展简介、现状

3.Apache Hadoop特性优点、国内外应用

4.Apache Hadoop发行版本、架构变迁

5.Apache Hadoop安装部署--集群组成介绍

灰色大框是一个个计算机,彩色小框是一个个进程

6.Apache Hadoop安装部署--服务器基础环境设置

快照1就包含基础环境

快照1已经使用vim编辑好了,下面用cat命令查看一下

用cat查看主机名

但一个个查看很麻烦

在任一机器下点击底栏

这里就可以给所有机器发送这个命令

正常情况下一台机器访问另外一台机器是需要密码的

后面涉及到一些的集群启动,我们可以直接免密操作

这里已经配置好了,下面做一个验证

ssh到我们的node1上,没有问题,然后退出

ssh到我们的node2上,没有问题,然后退出

ssh到我们的node3上,没有问题,然后退出

下面这个是阿里云的授时同步

这个命令要保持网络的通畅

这里我们也已经设置好

hadoop是Java写的,Java需要jdk提供相关的支撑

将jdk拖拽到server下

安装好以后就可以删除这个安装包

下面去配置环境变量

我们在配置文件的最后加上下面三行

这里主要配置Java home ,Java安装包的路径等信息

保存好后就重新加载一下环境变量

验证Java是否安装成功

上面只是在node1机器上安装成功

下面是scp远程拷贝到其它机器

我们的环境变量同样需要拷贝

之后对三台机器同时做一个source命令

7.Apache Hadoop安装部署--安装包结构

我们在第一天机器上进行配置然后拷贝到其它机器上

将hadoop安装包拷贝到server下

解压

删除安装包

下面cd进去看一下hadoop安装包的内容

8.Apache Hadoop安装部署--修改配置文件、同步安装包和环境变量

这里的配置主要说明Java的地址和各个进程运行的一个用户名

我们先到hadoop目录下

在文件的最后复制粘贴一下

我们将上面的core-site.xml放到configuration之间

上面的两个对内存限制在企业中可以去掉

删除原先的localhost

上面只完成了一台机器的配置

下面我们在三台机器输入hadoop

看能否正确识别

三台机器都显示了hadoop命令,成功

9.Apache Hadoop安装部署--format初始化操作

出现下面这个就是

成功了

10.Apache Hadoop安装部署--集群启停命令、web UI页面

下面继续打开第二和三台机器

上面我们HDFS集群就启动成功了

下面继续启动YARN集群

点击这里就会来到HDFS文件系统

11.Apache Hadoop安装部署--初体验

这个命令跟Linux命令比较相似

可以发现HDFS文件系统和Linux文件系统蛮像的

我们可以上传一个文件

我们再生成一个小文件,然后上传

除了使用命令

也可以在web页面进行操作

下面计算圆周率

下面这个就是计算结果

我们新建一个目录,然后将文件传过去

下面使用MapReduce去统计单词个数

12.传统文件系统在大数据时代面临的挑战

13.场景互动:分布式存储系统的核心属性及功能作用

14.HDFS简介、设计目标和应用场景

15.HDFS重要特性解读

这个 rack 代表机架。机柜在机房中,是一排排的机架机柜。机架 1 上有三个 DataNode,机架 2 上有两个,整体架构为一个主角色带领五个从角色的主从架构。数据底层是分块存储的,块为 Block,第三个块与块之间有副本备份(Replication),属于冗余存储。NameNode 记录元数据(matadata),如名字、备份副本数等。底层的 DataNode 专门存储数据块。

这里的size是文件本身大小,block_size就是数据块的大小

16.HDFS shell命令行解释说明

上面就是查看本地文件系统

其中文件并不在hdfs文件系统在

可以发现本地系统的根目录下就是我们的文件

==================================================================================================================================================

下面我们查看的就是HDFS系统的根目录

==================================================================================================================================================

如果我们什么都不加,默认就是HDFS的根目录

这个默认访问

取决fs_defaultFS参数

我们之前就配置好了

17.HDFS shell命令行常用操作

这里我们上传一个文件

人性化体现在红框中

本地就是执行命令的那台机器

如果在node1机器执行put,本地机器就是node1

如果在node2机器执行put,本地机器就是node2

但很多时候我们都是第一种写法

其它的查看命令比如tail

 

下面是简化写法

新创建三个文件

将其上传到hadoop

下面就是追加合并

将我们的文件内容追加到已经存在文件末尾

我们在企业中的小文件合并会用到上面的命令

18.HDFS工作流程与机制--各角色职责介绍与梳理

namenode放在内存中,因为内存交互速度快,但断电就消失了

所以使用磁盘进行持久化存储

19.HDFS工作流程与机制--写数据流畅--pipeline、ack、副本策略

上面就是我们的线性传输,管道式方法传输

下面的红线就是拓扑式传输

20.HDFS工作流程与机制--写数据流畅--梳理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/68278.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Elasticsearch】doc_values 可以用于查询操作

确实,doc values 可以用于查询操作,尽管它们的主要用途是支持排序、聚合和脚本中的字段访问。在某些情况下,Elasticsearch 也会利用 doc values 来执行特定类型的查询。以下是关于 doc values 在查询操作中的使用及其影响的详细解释&#xff…

TS开发的类型索引目录

TypeScript 相关知识整理 一、相关文档 Web API 类型:https://developer.mozilla.org/zh-CN/docs/Web/APIHTML DOM类型:https://developer.mozilla.org/zh-CN/docs/Web/API/HTMLElementReact类型文档:https://react-typescript-cheatsheet.…

Python 对列表进行排序的 5 种方法

在 Python 中,排序是一个非常常见且重要的操作,尤其是对列表的排序。Python 提供了多种方法来实现排序操作,从内置函数到自定义排序逻辑,都可以方便地满足不同的需求。以下将介绍 Python 对列表进行排序的 5 种方法,并…

2025年1月26日(超声波模块:上拉或下拉电阻)

添加上拉或下拉电阻是在电子电路设计和嵌入式系统编程中常用的一种技术手段,下面为你详细解释其含义、作用和应用场景。 基本概念 在数字电路里,引脚的电平状态通常有高电平(逻辑 1)和低电平(逻辑 0)两种…

项目概述与规划 (I)

项目概述与规划 (I) JavaScript的学习已经接近尾声了,最后我们将通过一个项目来讲我们在JavaScript中学习到的所有都在这个项目中展现出来,这个项目的DEMO来自于Udemy中的课程,作者是Jonas Schmedtmann; 项目规划 项目步骤 用户…

深入探讨Web应用开发:从前端到后端的全栈实践

目录 引言 1. Web应用开发的基本架构 2. 前端开发技术 HTML、CSS 和 JavaScript 前端框架与库 响应式设计与移动优先 3. 后端开发技术 Node.js(JavaScript后端) Python(Flask和Django) Ruby on Rails Java(S…

docker如何查看容器启动命令(已运行的容器)

docker ps 查看正在运行的容器 该命令主要是为了详细展示查看运行时的command参数 # 通过docker --no-trunc参数来详细展示容器运行命令 docker ps -a --no-trunc | grep <container_name>通过docker inspect命令 使用docker inspect&#xff0c;但是docker inspect打…

为AI聊天工具添加一个知识系统 之62 详细设计 之3:AI操作系统 之1

本文要点 要点 考虑下面的一组整理&#xff08;重点看一下用词、分组分行分类以及 排列组合&#xff09;&#xff0c;看看应该如何将他们组织到本项目程序中&#xff0c;是否同时还丰富了前面讨论的AI操作系统和Lexicographer 程序的内容。 1、工作任务&#xff1a;运行时编译…

项目集成RabbitMQ

文章目录 1.common-rabbitmq-starter1.创建common-rabbitmq-starter2.pom.xml3.自动配置1.RabbitMQAutoConfiguration.java2.spring.factories 2.测试使用1.创建common-rabbitmq-starter-demo2.目录结构3.pom.xml4.application.yml5.TestConfig.java 配置交换机和队列6.TestCon…

LLM大模型推理中的常见数字

1. 聊天机器人Chatbot&#xff0c;一般&#xff0c;input tokens : output tokens 1100:15 2. LLama2的tokenizer&#xff0c;中文情况下&#xff0c;token:汉字1:1.01 3. prefilling阶段的吞吐量(tokens/s)&#xff0c;一般是decoding阶段的50~100倍。 4. 4张带有NVLink的…

【AI日记】25.01.26

【AI论文解读】【AI知识点】【AI小项目】【AI战略思考】【AI日记】【读书与思考】 AI kaggle 比赛&#xff1a;Forecasting Sticker Sales 读书 书名&#xff1a;自由宪章 律己 AI&#xff1a;6 小时作息&#xff1a;00:30-8:30短视频&#xff1a;大于 1 小时读书和写作&a…

RK3568 adb使用

文章目录 一、adb介绍**ADB 主要功能****常用 ADB 命令****如何使用 ADB****总结** 二、Linux下载adb**方法 1&#xff1a;使用包管理器&#xff08;适用于 Ubuntu/Debian 系统&#xff09;****方法 2&#xff1a;通过 Snap 安装&#xff08;适用于支持 Snap 的系统&#xff09…

STM32项目分享:智能宠物喂食系统(升级版)

目录 一、前言 二、项目简介 1.功能详解 2.主要器件 三、原理图设计 四、PCB硬件设计 PCB图 五、程序设计 六、实验效果 七、资料内容 项目分享 一、前言 项目成品图片&#xff1a; 哔哩哔哩视频链接&#xff1a; STM32智能宠物喂食系统(升级版) &#xff08;资…

JS 时间格式大全(含大量示例)

在 JS 中&#xff0c;处理时间和日期是常见的需求。无论是展示当前时间、格式化日期字符串&#xff0c;还是进行时间计算&#xff0c;JavaScript 都提供了丰富的 API 来满足这些需求。本文将详细介绍如何使用 JavaScript 生成各种时间格式&#xff0c;从基础到高级&#xff0c;…

软件测试 —— 性能测试(jmeter)

软件测试 —— 性能测试&#xff08;jmeter&#xff09; 什么是jmeter安装jmeterjmeter常用组件线程组取样器结果树 我们之前学习了接口测试工具Postman&#xff0c;我们今天要学习的是性能测试工具——jmeter 什么是jmeter Apache JMeter 是一个开源的性能测试工具&#xff…

element-plus 的table section如何实现单选

如果是单选那么全新的按钮应该隐藏或者不可编辑的状态。但是我没找到改变成不可编辑的方法&#xff0c;只能采取隐藏 <template><!-- 注意要包一层div根元素&#xff0c;否则css样式可能会不生效&#xff0c;原因不详 --><div><el-table ref"proTab…

电阻补偿OTA的噪声分析

上文&#xff08;补偿电阻对ota零极点的影响-CSDN博客&#xff09;分析了补偿电阻对五管OTA零极点的影响&#xff0c;该篇借分析电阻补偿OTA的噪声来串联复习下噪声章节的一些基础概念。 1.噪声分析 辅助定理 开始分析OTA噪声之前&#xff0c;先引入一个辅助定理&#xff08;R…

从CRUD到高级功能:EF Core在.NET Core中全面应用(四)

初识表达式树 表达式树&#xff1a;是一种可以描述代码结构的数据结构&#xff0c;它由一个节点组成&#xff0c;节点表示代码中的操作、方法调用或条件表达式等&#xff0c;它将代码中的表达式转换成一个树形结构&#xff0c;每个节点代表了代码中的操作例如&#xff0c;如果…

C语言初阶力扣刷题——349. 两个数组的交集【难度:简单】

1. 题目描述 力扣在线OJ题目 给定两个数组&#xff0c;编写一个函数来计算它们的交集。 示例&#xff1a; 输入&#xff1a;nums1 [1,2,2,1], nums2 [2,2] 输出&#xff1a;[2] 输入&#xff1a;nums1 [4,9,5], nums2 [9,4,9,8,4] 输出&#xff1a;[9,4] 2. 思路 直接暴力…

在Qt中实现点击一个界面上的按钮弹窗到另一个界面

文章目录 步骤 1&#xff1a;创建新窗口类步骤 2&#xff1a;设计窗口的 UI步骤 3&#xff1a;设计响应函数 以下是一个完整的示例&#xff0c;展示在Qt中如何实现在一个窗口中通过点击按钮弹出一个新窗口。 步骤 1&#xff1a;创建新窗口类 假设你要创建一个名为 WelcomeWidg…