spark实验2

一.实验题目

   实验所需要求:  centos7虚拟机 pyspark spark python3 hadoop分布式

统计历届春晚的节目数目

统计各个类型节目的数量,显示前10名

统计相声类节目历年的数目。

查询每个演员在春晚上表演节目的数量。

统计每年各类节目的数量,打印(节目类型、年份、数量),按照节目类型升序排序,节目类型相同时其次按照年份降序排序

二 实验代码

from pyspark.sql import SparkSession

from pyspark.sql.functions import col, count, desc, asc, split, explode

# 创建 SparkSession

spark = SparkSession.builder \

    .appName("SpringFestivalGalaAnalysis") \

    .getOrCreate()

# 读取 CSV 文件

df = spark.read.csv("party.csv", sep="\t", header=False, inferSchema=True)

# 为 DataFrame 设置列名

columns = ["year", "program_type", "program_name", "performers"]

df = df.toDF(*columns)

# 统计历届春晚的节目数目

total_programs = df.count()

print(f"Total programs: {total_programs}")

# 统计各个类型节目的数量,显示前10名

program_type_counts = df.groupBy("program_type").count().orderBy(col("count").desc()).limit(10)

program_type_counts.show()

# 统计相声类节目历年的数目

xiangsheng_counts = df.filter(col("program_type") == "相声").groupBy("year").count().orderBy("year")

xiangsheng_counts.show()

# 查询每个演员在春晚上表演节目的数量

# 将 performers 字段拆分并展开

performers_df = df.withColumn("performer", explode(split(col("performers"), "、")))

performer_counts = performers_df.groupBy("performer").count().orderBy(col("count").desc())

performer_counts.show()

# 统计每年各类节目的数量,打印(节目类型、年份、数量)

# 按照节目类型升序排序,节目类型相同时其次按照年份降序排序

yearly_program_counts = df.groupBy("program_type", "year").count().orderBy([col("program_type").asc(), col("year").desc()])

yearly_program_counts.show()

# 停止 SparkSession

spark.stop()

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/72181.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

学习文章:Spring Boot 中如何使用 `@Async` 实现异步处理

文章目录 学习文章:Spring Boot 中如何使用 Async 实现异步处理 一、什么是 Async?优点: 二、Spring Boot 中启用 Async1. 启用异步支持2. 配置线程池(可选)3. 使用 Async 注解4. 调用异步方法 三、Async 的进阶用法1.…

Manus:成为AI Agent领域的标杆

一、引言 官网:Manus 随着人工智能技术的飞速发展,AI Agent(智能体)作为人工智能领域的重要分支,正逐渐从概念走向现实,并在各行各业展现出巨大的应用潜力。在众多AI Agent产品中,Manus以其独…

Git Fast-forward 合并详解:原理、场景与最佳实践

在使用 Git 进行团队协作时,我们经常需要合并分支。合并方式有很多种,其中 Fast-forward(快速合并) 是一种最简单且无冲突的合并方式。本文将详细介绍 Fast-forward 的原理、适用场景、常见问题及最佳实践。 一、Fast-forward 合并…

命令行重启Ubuntu软件

我是用Todesk远程桌面,如果卡死的时候,只能通过ssh连接命令行。于是,就有了如标题所示的需求。 首先,我们看一下todesk在系统里叫什么名字: systemctl list-unit-files | grep -i todesk看到发现是"todeskd.serv…

算法每日一练 (11)

💢欢迎来到张胤尘的技术站 💥技术如江河,汇聚众志成。代码似星辰,照亮行征程。开源精神长,传承永不忘。携手共前行,未来更辉煌💥 文章目录 算法每日一练 (11)全排列题目描述解题思路解题代码c/c…

《Spring日志整合与注入技术:从入门到精通》

1.Spring与日志框架的整合 1.Spring与日志框架进行整合,日志框架就可以在控制台中,输出Spring框架运行过程中的一些重要的信息。 好处:方便了解Spring框架的运行过程,利于程序的调试。 Spring如何整合日志框架 Spring5.x整合log4j…

《SQL性能优化指南:新手如何写出高效的数据库查询

新手程序员如何用三个月成为SQL高手?万字自学指南带你弯道超车 在数据为王的时代,掌握SQL已成为职场新人的必修课。你可能不知道,仅用三个月系统学习,一个零基础的小白就能完成从数据库萌新到SQL达人的蜕变。去年刚毕业的小王就是…

【Unity】在项目中使用VisualScripting

1. 在packagemanager添加插件 2. 在设置中进行初始化。 Edit > Project Settings > Visual Scripting Initialize Visual Scripting You must select Initialize Visual Scripting the first time you use Visual Scripting in a project. Initialize Visual Scripting …

JConsole 在 Linux 上的使用

JConsole 在 Linux 上的使用指南 1. 启动 JConsole 远程监控 Linux 服务器上的 JVM 进程 1.1 修改 JMX 配置&#xff0c;允许远程访问 在 Linux 服务器 启动 Java 应用时&#xff0c;需要加上 -Djava.rmi.server.hostname<服务器IP>&#xff0c;完整的启动参数如下&am…

个人记录,Unity资源解压和管理插件

就是经典的两个AssetStudio 和 Ripper 没有什么干货&#xff0c;就是记录一下&#xff0c;内容没有很详细 AssetStudio 说错了&#xff0c;AssetStudio比较出名&#xff08;曾经&#xff09;&#xff0c;但好像堕落了 是&#xff0c;AssetBundlExtractor 这个工具有个好处就…

编译skia

1.准备工具 (1)vs2019,到微软官方下载下载 Visual Studio Tools - 免费安装 Windows、Mac、Linux (2)ninja,下载地址:Releases ninja-build/ninja GitHub (3)gn,下载地址:https://chrome-infra-packages.appspot.com/p/gn/gn/windows-amd64 (4)skia,下载地址:git …

vue 知识点整理

1.data为什么是一个函数而不是对象 维度对象形式函数形式数据隔离性所有实例共享同一对象&#xff0c;导致数据污染每个实例拥有独立数据副本复用安全性不适用于可复用组件支持组件安全复用语言机制引用传递引发副作用函数返回值实现作用域隔离&#xff08;闭包&#xff09;框…

DeepSeek-Open WebUI部署

1.DeepSeek部署-Win版本 2.DeepSeek部署-Linux版本 3.DeepSeek部署-一键部署(Linux版本) 4.DeepSeek部署-进阶版本(LinuxGPU) 5.DeepSeek部署-基于vLLM部署 前面部署了vLLM版本以后&#xff0c;访问它比较麻烦。如何才能更好的实现访问呢&#xff0c;这个就是我们今天要讲的…

(vue)elementUi中el-upload上传附件之后 点击附件可下载

(vue)elementUi中el-upload上传附件之后 点击附件可下载 handlePreview(file) {console.log(file)const fileUrl https://.../zzy/ file.urlconst a document.createElement(a)a.href fileUrla.download file.namea.style.display none// a.setAttribute(download, file.…

你认为 Java 的优势是什么?

你认为 Java 的优势是什么? 回答重点 我觉得可以从跨平台、垃圾回收、生态、面向对象四个方面来阐述。 跨平台 首先 Java 是跨平台的,不同平台执行的机器码是不一样的,而 Java 因为加了一层中间层 JVM,所以可以做到一次编写多平台(如 Windows、Linux、macOS)运行,即…

SpringBoot——Maven篇

Spring Boot 是一个用于快速开发基于 Spring 框架的应用程序的工具。它具有许多特性&#xff0c;其中一些重要的特性包括&#xff1a; 1. 自动配置&#xff1a;Spring Boot 提供了自动配置的机制&#xff0c;可以根据应用程序的依赖和环境自动配置应用程序的各种组件&#xff…

搭建基于chatgpt的问答系统

一、语言模型&#xff0c;提问范式与 Token 1.语言模型 大语言模型&#xff08;LLM&#xff09;是通过预测下一个词的监督学习方式进行训练的&#xff0c;通过预测下一个词为训练目标的方法使得语言模型获得强大的语言生成能力。 a.基础语言模型 &#xff08;Base LLM&…

leetcode0056. 合并区间 - medium

1 题目&#xff1a;合并区间 官方难度 - 中等 以数组 intervals 表示若干个区间的集合&#xff0c;其中单个区间为 intervals[i] [starti, endi] 。请你合并所有重叠的区间&#xff0c;并返回 一个不重叠的区间数组&#xff0c;该数组需恰好覆盖输入中的所有区间 。 示例 1…

系统开发资源

一、前端篇 1.1 菜鸟CSS教程 1.2 HTML/CSS/JS 在线工具 二、后端篇 三、其他篇 3.1 菜鸟官网 3.2 黑马程序员学习路线 3.3 根据地区获取经纬度

计算机视觉cv2入门之图像的读取,显示,与保存

在计算机视觉领域&#xff0c;Python的cv2库是一个不可或缺的工具&#xff0c;它提供了丰富的图像处理功能。作为OpenCV的Python接口&#xff0c;cv2使得图像处理的实现变得简单而高效。 示例图片 目录 opencv获取方式 图像基本知识 颜色空间 RGB HSV 图像格式 BMP格式 …