Spark中给读取到的数据 的列 重命名的几种方式!

目录

一、第一种 (withColumnRenamed)

二、第二种(toDF)

三、第三种( toDF(*tuple1) ) 

四、 第四种(schema)

五、假如文件里自带有列名的情况(option)


一、第一种 (withColumnRenamed)

假设要把如下a.csv的数据读取出来并分析:

(注意:csv会自动按照“,”给切分开  可以指定 option(sep,"\t")自定义切分符)

1,yuwen,43
1,shuxue,55
2,yuwen,77
2,shuxue,88
3,yuwen,98
3,shuxue,65
3,yingyu,88

 withColumnRenamed("默认列名","自定义列名")

    # 获取sparkSession对象spark = SparkSession.builder.master("local[2]").appName("第一种方法").config("spark.sql.shuffle.partitions", 2).getOrCreate()# 给文件的每一列命名df=spark.read.csv("***文件位置****").withColumnRenamed("_c0","id").withColumnRenamed("_c1","subject").withColumnRenamed("_c2","score")df.createOrReplaceTempView("scores")df.show(truncate=False)

查询结果:

二、第二种(toDF)

toDF("列名","列名","列名")

# 获取sparkSession对象
spark = SparkSession.builder.master("local[2]").appName("第一种方法").config("spark.sql.shuffle.partitions", 2).getOrCreate()
# 给文件的每一列命名 
df2=spark.read.csv("***文件位置****").toDF("id","subject","score")
df2.show()

查询结果:

三、第三种( toDF(*tuple1) ) 

toDF(*元组)

# 获取sparkSession对象
spark = SparkSession.builder.master("local[2]").appName("第一种方法").config("spark.sql.shuffle.partitions", 2).getOrCreate()
# 给文件的每一列命名 
tuple1=("id","subject","score")
df3=spark.read.csv("***文件位置***").toDF(*tuple1)
df3.show()

查询结果:

四、 第四种(schema)

自定义表结构schema

# 获取sparkSession对象
spark = SparkSession.builder.master("local[2]").appName("第一种方法").config("spark.sql.shuffle.partitions", 2).getOrCreate()
# 给文件的每一列命名 
score_schema=StructType([StructField("id",IntegerType(),True),StructField("name",StringType(),True),StructField("score",DoubleType(),True),])
df4=spark.read.csv('***文件位置***',schema=score_schema)
df4.show()

查询结果:

五、假如文件里自带有列名的情况(option)

如果文件里是如下数据:

id,username,math,computer,english
1,huangbo,34,58,58
2,xuzheng,45,87,45
3,wangbaoqiang,76,34,89

 可以直接让第一行成为列明,使用option即可:

# 获取sparkSession对象
spark = SparkSession.builder.master("local[2]").appName("第一种方法").config("spark.sql.shuffle.partitions", 2).getOrCreate()
# 给文件添加表头
df4=spark.read.format("csv").option("header", "true").load("../../datas/zuoye/1104/03.txt")
df4.show(truncate=False)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/60305.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

imu_tk配置教程(锁死ubuntu18.04,不要22.04)

在ubuntu18.04上安装。 imu_tk 的 cmake 必须要qt4.x,但 ubuntu22.04 和qt4.x不适配。 1、安装 ceres-solver 下载路径:http://ceres-solver.org/installation.html (需要梯子,核心内容记录如下。需下载 ceres-solver 安装包&am…

M1M2 MAC安装windows11 虚拟机的全过程

M1/M2 MAC安装windows11 虚拟机的全过程 这两天折腾了一下windows11 arm架构的虚拟机,将途中遇到的坑总结一下。 1、虚拟机软件:vmware fusion 13.6 或者 parallel 19 ? 结论是:用parellel 19。 这两个软件都安装过&#xff0…

经济模型智慧管理分析系统(EcoModel Manager)

200例更新完成 1.产品介绍 产品介绍方案 产品名称: 经济模型智慧管理分析系统(EcoModel Manager) 主要功能: 多维度经济模型构建智能数据分析与预测动态情景模拟与优化可视化报告与决策支持 功能介绍: 多维度经济…

IEEE JSSC更新|Tiny Tapeout:让每个人都能设计定制芯片

简介 由于成本高昂且需要专业技术,设计和制造定制集成电路的传统上仅限于大型公司和机构。然而,名为Tiny Tapeout的创新项目正在改变这一现状,让业余爱好者、学生和小型团队也能设计定制芯片。本文将探讨Tiny Tapeout的工作原理,以…

Java:一段代码,无限可能

Java,诞生于1995年,如今已走过近三十载春秋。它历经互联网泡沫的兴衰、移动互联网的浪潮,以及云计算和大数据的洗礼,依然屹立在编程语言的舞台中央,散发着耀眼的光芒。这篇文章将带你回顾Java的辉煌历史,探…

《XGBoost算法的原理推导》12-14决策树复杂度的正则化项 公式解析

本文是将文章《XGBoost算法的原理推导》中的公式单独拿出来做一个详细的解析,便于初学者更好的理解。 我们定义一颗树的复杂度 Ω Ω Ω,它由两部分组成: 叶子结点的数量;叶子结点权重向量的 L 2 L2 L2范数; 公式(…

JavaScript 正则表达式详解

正则表达式(Regular Expression,简称 RegEx)是一种强大的文本匹配工具,广泛应用于字符串搜索、替换和验证等场景。 1. 基本概念 1.1 创建正则表达式 在 JavaScript 中,可以通过两种方式创建正则表达式: 字面量表示法: const regex = /pattern/flags; 构造函数表示法…

Linux【基础篇】

-- 原生罪 linux的入门安装学习 什么是操作系统? 用户通过操作系统和计算机硬件联系使用。桥梁~ 什么是Linux? 他是一套开放源代码(在互联网上找到Linux系统的源代码,C语言写出的软件),可以自由 传播&…

大数据技术在智慧医疗中的应用

💓 博客主页:瑕疵的CSDN主页 📝 Gitee主页:瑕疵的gitee主页 ⏩ 文章专栏:《热点资讯》 大数据技术在智慧医疗中的应用 大数据技术在智慧医疗中的应用 大数据技术在智慧医疗中的应用 引言 大数据技术概述 定义与原理 发…

Linux(CentOS)安装 MySQL

CentOS版本:CentOS 7 三种安装方式: 一、通过 yum 安装,最简单,一键安装,全程无忧。 二、通过 rpm 包安装,需具备基础概念及常规操作。 三、通过 gz 包安装,需具备配置相关操作。 --------…

无线局域网四种类型

无线局域网(WLAN)常用的四种类型包括: 基础设施模式(Infrastructure Mode) 在这种模式下,所有设备都通过无线接入点(AP)进行通信。接入点通常连接到有线网络,以便无线设备…

CSS如何改变滚动条的颜色样式粗细?

默认滚动条很丑怎么办?如何改版滚动条的粗细,颜色,让它更美观?CSS如何改变滚动条的粗细? 干货来了 /* Webkit内核浏览器的滚动条样式 */ ::-webkit-scrollbar {width: 4px; /* 设置滚动条的宽度 */ }::-webkit-scroll…

java并发编程JUC:四、volatile(保证可见性、防止指令重排、双重校验锁实现对象单例)

volatile关键字 在Java中,volatile关键字用于声明变量,以确保对变量的读写操作直接在主内存中进行,而不是在线程的本地缓存中。volatile的主要作用是提供可见性和有序性保证,但它不保证原子性。 可见性(Visibility&a…

YOLOv11(Ultralytics)可视化界面ui设计,基于pyqt5,单文件即插即用,支持文件夹检测及云摄像头检测并保存

本文的可视化界面对于YOLOv11/Ultralytics/YOLOv8的检测、分割、分类、姿势估算(detection, segmentation, obb, classification, and pose estimation)等均可正常显示。本次新增了图片及视频的保存,可以选择传入文件夹进行检测并显示&#x…

用python开发坦克大战重制版

Python 开发坦克大战重制版:全面教程 引言 坦克大战是一款经典的街机游戏,自1985年首次推出以来,便吸引了无数玩家。随着时间的推移,许多游戏开发者开始尝试重制这款经典游戏。本文将指导你如何使用 Python 和 Pygame 库开发一个…

链式结构二叉树

数据结构 结点申请 树🌲行结构 前中后序遍历 二叉树结点个数 二叉树叶子节点个数 第k层结点个数 二叉树深度 二叉树查找值为x的结点 二叉树销毁

【2024软考架构案例题】你知道什么是 RESTful 风格吗?

👉博主介绍: 博主从事应用安全和大数据领域,有8年研发经验,5年面试官经验,Java技术专家,WEB架构师,阿里云专家博主,华为云云享专家,51CTO 专家博主 ⛪️ 个人社区&#x…

Java 封装(Encapsulation)详解

封装是面向对象编程(OOP)中的一个核心概念,它涉及将数据(变量)和操作这些数据的方法(函数)捆绑成一个单一的单元或类。封装的主要目的是限制对对象某些组件的直接访问,从而保护数据的…

wordpress站外调用指定ID分类下的推荐内容

在WordPress中,如果你想从站外调用指定ID分类下的推荐内容,你可以使用WordPress REST API来实现。以下是一个基本的步骤指南: 1. 启用REST API 确保你的WordPress站点已经启用了REST API。大多数现代WordPress版本默认启用此功能。 2. 获取…

#渗透测试#SRC漏洞挖掘#深入挖掘CSRF漏洞02

免责声明 本教程仅为合法的教学目的而准备,严禁用于任何形式的违法犯罪活动及其他商业行为,在使用本教程前,您应确保该行为符合当地的法律法规,继续阅读即表示您需自行承担所有操作的后果,如有异议,请立即停…