HDFS的概述

HDFS组成构架:

注:

NameNode(nn):就是 Master,它是一个主管、管理者。

(1) 管理 HDFS 的名称空间;

(2) 配置副本策略。记录某些文件应该保持几个副本;

(3) 管理数据块(Block)映射信息; 一个大文件可能有多个数据块(一块为128M),每个块保存在哪里

(4) 处理客户端读写请求。

DataNode:就是 Slave。NameNode 下达命令,DataNode 执行实际的操作。

(1) 存储实际的数据块;

(2) 执行数据块的读 / 写操作。

Secondary NameNode:并非 NameNode 的热备。当 NameNode 挂掉的时候,它并不能马上替换 NameNode 并提供服务。 真实的开发中,我们会配置两个个namenode来实现高可用。

(1) 辅助 NameNode,分担其工作量,比如定期合并 Fsimage 和 Edits,并推送给 NameNode;

(2) 在紧急情况下,可辅助恢复 NameNode。

Client:就是客户端。 

(1)文件上传 HDFS 的时候,Client 将文件切分成一个一个的 Block,然后进行上传;

(2)与 NameNode 交互,获取文件的位置信息;

(3)与 DataNode 交互,读取或者写入数据;

(4) Client 提供一些命令来管理 HDFS,比如 NameNode 格式化;

(5) Client 可以通过一些命令来访问 HDFS,比如对 HDFS 增删查改操作;

HDFS文件默认大小是128M

shell操作文件上传

1.从本地剪切粘贴到HDFS。把本地的文件上传到HDFS,并删除本地的文件。假设你在hadoop102上有一个文件/opt/conf/sanguo.txt(请自行创建)。

基本格式是:

hadoop fs -moveFormLocal  (本地文件路径 服务器上的文件路径)

可以通过如下命令把这个文件上传到服务器上。

[root@hadoop100 hadoop-3.1.3]$ hadoop fs  -moveFromLocal  /opt/tmp/sanguo.txt  /sanguo.txt

注意到,它会把本地的文件删除掉。

2.如果要保留本地的文件,可以使用 -put 命令。具体如下:

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -put /opt/tmp/sanguo.txt /sanguo

shell操作文件下载

下载就是把集群中的文件下载到本地。它要用到的命令是hadoop fs -get。

基本格式是:

hadoop fs -get  (服务器上的文件路径 本地文件路径)

示例需求: 把服务器上的shuguo.txt 下载到hadoop100的 files目目录下。

对应的命令:

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -get /sanguo/shuguo.txt ./shuguo2.txt

其他shell操作

1.显示目录信息。

使用-ls命令,示例如下:

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -ls /

上面的命令用来查看根目录(/)下的文件。

2.创建文件夹。

使用-mkdir命令。格式是:hadoopfs -mkdir 文件名。 示例如下:

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -mkdir /jinguo

3.显示文件内容。

使用-cat命令。示例如下:

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -cat /sanguo/shuguo.txt

3.拷贝文件。

使用-cp命令。表示从HDFS的一个路径拷贝到HDFS的另一个路径

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -cp /sanguo/shuguo.txt /jinguo

4.移动文件。

使用-mv命令,它的格式是: hadoop fs -mv 文件起点 终点

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -mv /sanguo/wuguo.txt /jinguo

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -mv /sanguo/weiguo.txt /jinguo

5.删除文件或文件夹。

使用-rm 命令,它的格式是: -rm 要删除的文件

[root@hadoop100 hadoop-3.1.3]$ hadoop fs -rm /sanguo/shuguo.txt

6.递归删除。

使用-rm -r命令, 它用来删除目录及目录里面内容,它的格式是: -rm -r 要删除的文件夹。

[root@hadoop102 hadoop-3.1.3]$ hadoop fs -rm -r /sanguo

7.统计文件夹的大小信息。使用命令 -du。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/80065.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

配置Spark环境

1.上传spark安装包到某一台机器(自己在finaShell上的机器)。 2.解压。 把第一步上传的安装包解压到/opt/module下(也可以自己决定解压到哪里)。对应的命令是:tar -zxvf 安装包 -C /opt/module 3.重命名。进入/opt/mo…

Java笔记五

1 Math类 1.1 概述 tips:了解内容 查看API文档,我们可以看到API文档中关于Math类的定义如下: Math类所在包为java.lang包,因此在使用的时候不需要进行导包。并且Math类被final修饰了,因此该类是不能被继承的。 Math…

QT 插槽实现

方法 1:使用 default property 实现标签插入 通过定义 default property,可以使组件直接嵌套在目标组件中,类似于插槽机制。 CustomSlotExample.qml import QtQuick 2.15 import QtQuick.Controls 2.15// 定义一个支持插槽的自定义组件 Re…

spark在shell中运行RDD程序

在hdfs中/wcinput中创建一个文件:word2.txt在里面写几个单词 启动hdfs集群 [roothadoop100 ~]# myhadoop start [roothadoop100 ~]# cd /opt/module/spark-yarn/bin [roothadoop100 ~]# ./spark-shell 写个11测试一下 按住ctrlD退出 进入环境:spark-shel…

Redis 主从复制的实现原理是什么?

Redis主从复制的实现原理可通过以下核心机制与流程解析: 一、核心目标与角色分工 Redis主从复制通过**单一主节点(Master)**处理写操作,**多个从节点(Slave)**同步数据并提供读服务,实现&…

量化交易 - 网格交易策略实现与原理解析

📈 网格交易策略实现与原理解析 🧠 什么是网格交易策略? 网格交易(Grid Trading)是一种经典的量化交易策略,其核心思想是在价格的不同区间(“网格”)中设置买入和卖出操作&#xf…

前端npm的核心作用与使用详解

一、npm是什么? npm(Node Package Manager) 是 Node.js 的默认包管理工具,也是全球最大的开源代码库生态系统。虽然它最初是为 Node.js 后端服务设计的,但如今在前端开发中已成为不可或缺的基础设施。通过npm,开发者可以轻松安装、管理和共享代码模块。 特性: 依赖管理…

Vue3学习(组合式API——生命周期函数基础)

目录 一、Vue3组合式API中的生命周期函数。 &#xff08;1&#xff09;各阶段生命周期涉及函数简单介绍。 <1>创建挂载阶段的生命周期函数。 <2>更新阶段的生命周期函数。 <3>卸载阶段的生命周期函数。 <4>错误处理的生命周期函数。 &#xff08;2&…

道通EVO MAX系列无人机-支持二次开发

道通EVO MAX系列无人机-支持二次开发 EVO Max 系列采用Autel Autonomy自主飞行技术&#xff0c;实现复杂环境下的全局路径规划、3D场景重建、自主绕障和返航&#xff1b;高精度视觉导航能力&#xff0c;使其在信号干扰强、信号遮挡、信号弱等复杂环境下&#xff0c;依然获得高精…

网张实验操作-防火墙+NAT

实验目的 了解防火墙&#xff08;ENSP中的USG5500&#xff09;域间转发策略配置、NAT&#xff08;与路由器NAT配置命令不同&#xff09;配置。 网络拓扑 两个防火墙连接分别连接一个内网&#xff0c;中间通过路由器连接。配置NAT之后&#xff0c;内网PC可以ping公网&#xf…

FPGA: UltraScale+ bitslip实现(方案+代码)

收获 一晃五年~ 五年前那个夏夜&#xff0c;我对着泛蓝的屏幕敲下《给十年后的自己》&#xff0c;在2020年的疫情迷雾中编织着对未来的想象。此刻回望&#xff0c;第四届集创赛的参赛编号仍清晰如昨&#xff0c;而那个在家熬夜焊电路板的"不眠者"&#xff0c;现在…

机器学习笔记2

5 TfidfVectorizer TF-IDF文本特征词的重要程度特征提取 (1) 算法 词频(Term Frequency, TF), 表示一个词在当前篇文章中的重要性 逆文档频率(Inverse Document Frequency, IDF), 反映了词在整个文档集合中的稀有程度 (2) API sklearn.feature_extraction.text.TfidfVector…

UV 快速入门和使用案例

UV 快速入门和使用案例 作者&#xff1a;王珂 邮箱&#xff1a;49186456qq.com 文章目录 UV 快速入门和使用案例简介一、安装1.1 安装包安装1.2 从 PyPI 安装二、使用2.1 创建项目2.2 包管理2.3 工具2.4 Python 版本 简介 官网&#xff1a; 项目&#xff1a; https://githu…

质控脚本来喽

好久不更新&#xff0c;上个硬货。脚本需提前准备宿主和rrna的bowtie2索引文件&#xff0c;原始数据的命名方式为{sample}_raw_1/2.fq.gz&#xff0c;保存有原始数据路径的文件&#xff0c;保存样品列表的文件。 最后打个广告&#xff0c;欢迎畜牧学方向的研究生报考兰州大学。…

Linux Bash | Capture Output / Recall

注&#xff1a;本文为 “Linux Bash | Capture Output / Recall” 相关文章合辑。 英文引文&#xff0c;机翻未校。 中文引文&#xff0c;略作重排。 Automatically Capture Output of the Last Command Into a Variable Using Bash 使用 Bash自动将最后一个命令的输出捕获到…

编程题 03-树2 List Leaves【PAT】

文章目录 题目输入格式输出格式输入样例输出样例 题解解题思路完整代码 编程练习题目集目录 题目 Given a tree, you are supposed to list all the leaves in the order of top down, and left to right. 输入格式 Each input file contains one test case. For each case, …

QT设置MySQL驱动

QSqlDatabase: QMYSQL driver not loaded QSqlDatabase: available drivers: QSQLITE QMYSQL QMYSQL3 QODBC QODBC3 QPSQL QPSQL7 第一步&#xff1a;下载MySQL https://dev.mysql.com/downloads/mysql/ 解压缩下载的安装包&#xff0c;其目录结构如下所示&#xff1a; 第二…

ABP User Interface-Angular UI中文详解

本系列文章主要用于对ABP User Interface-Angular UI &#xff08;Angular UI | ABP.IO Documentation&#xff09;不分的中文讲解以及记录自己在学习过程中发现的容易出错的地方。 1. 开发Development 2. 核心功能Core Functions 3. 通用组件Utilities 4. 自定义Customiza…

常用负载均衡技术有哪些?不同网络层面上的网络负载均衡技术

前言 负载均衡是一种策略&#xff0c;它能让多台服务器或多条链路共同承担一些繁重的计算或I/O任务&#xff0c;从而以较低成本消除网络瓶颈&#xff0c;提高网络的灵活性和可靠性。 在系统管理员发现网络性能不好时&#xff0c;可以通过网络负载均衡来分配资源&#xff0c;以…

ARMV8 RK3399 u-boot TPL启动流程分析 --crt0.S

上一篇介绍到start.S 最后一个指令是跳转到_main, 接下来分析 __main 都做了什么 arch/arm/lib/crt0.S __main 注释写的很详细&#xff0c;主要分为5步 1. 准备board_init_f的运行环境 2. 跳转到board_init_f 3. 设置broad_init_f 申请的stack 和 GD 4. 完整u-boot 执行re…