文章目录
- 1. 创建CSV文件
- 2. 上传CSV文件
- 3. 读取CSV文件生成RDD
- 4. 去掉标题行生成新RDD
- 5. 查看新生成的RDD
1. 创建CSV文件
- 执行命令:vim scores.csv
  
- 在WPS里查看CSV文件
  
2. 上传CSV文件
- 执行命令:hdfs dfs -put scores.csv /park
  
3. 读取CSV文件生成RDD
- 执行命令:val lines = sc.textFile("hdfs://master:9000/park/scores.csv")
  
4. 去掉标题行生成新RDD
-  执行命令: val firstLine = lines.first()
  
-  执行命令: val secondToLastLines = lines.filter(_ != firstLine)
  
5. 查看新生成的RDD
- 执行命令:secondToLastLines.collect.foreach(println)
  
通过上述步骤,我们能够成功地从 HDFS 读取 CSV 文件,去除标题行,并查看剩余的数据行。这为进一步的数据处理和分析打下了基础。