SparkSQL操作Mysql

前面的课程我们学习了如何从csv文件中读入数据,这相当于是对csv这种类型的数据的操作。那么接下来,我们一起看看,如何写Spark程序来操作mysql数据库。先来给大家介绍一下我们这节课的主要学习内容

(1)安装mysql数据库

(2)写Spark程序连接mysql数据库并进行读写操作。

准备mysql环境

我们计划在hadoop001这台设备上安装mysql服务器,(当然也可以重新使用一台全新的虚拟机)。

以下是具体步骤:

  1. 使用finalshell连接hadoop001.
  2. 查看是否已安装MySQL。命令是: rpm -qa|grep mariadb

若已安装,需要先做卸载MySQL的操作命令是:rpm -e --nodeps mariadb-libs

  1. 把mysql的安装包上传到虚拟机。

  1. 进入/opt/software/目录,解压上传的.tar文件。

cd /opt/software

解压文件

tar -xf mysql-5.7.28-1.el7.x86_64.rpm-bundle.tar

得到的效果如下

  1. 安装工具包

yum install -y   perl   perl-Data-Dumper   perl-Digest-MD5   net-tools libaio

如果安装成功,或者显示以下内容,即可继续安装步骤:

软件包 libaio-0.3.109-13.el7.x86_64 已安装并且是最新版本

无须任何处理

6.安装mysql。依次输入以下5条命令:

rpm -ivh mysql-community-common-5.7.28-1.el7.x86_64.rpm

rpm -ivh mysql-community-libs-5.7.28-1.el7.x86_64.rpm

rpm -ivh mysql-community-libs-compat-5.7.28-1.el7.x86_64.rpm

rpm -ivh mysql-community-client-5.7.28-1.el7.x86_64.rpm

rpm -ivh mysql-community-server-5.7.28-1.el7.x86_64.rpm

命令说明:

rpm -ivh 是 Linux 中用于安装 RPM(Red Hat Package Manager)软件包的命令。具体来说,rpm -ivh 中的每个选项都有特定的含义:

rpm:RPM 包管理工具,用于安装、查询、验证、更新和删除软件包。  

-i:表示安装(install)软件包。  

-v:表示显示详细(verbose)信息,提供更多安装过程中的输出信息。  

-h:表示在安装过程中显示进度条,以 # 符号表示安装进度。

  1. 初始化数据库

使用的命令是: mysqld --initialize --user=mysql

  1. 查看临时密码

安装完成之后,它会在一个日志文件中保存临时密码,通过cat命令来查看这个密码。具体的操作是:cat /var/log/mysqld.log

将临时密码复制,或者暂时存到某处

  1. 启动MySQL服务。对应的命令是:systemctl start mysqld
  2. 登录MySQL数据库。对应的命令是:mysql -uroot -p
  3. 输入临时密码。此时会要求输入密码。

Enter password: 临时密码。注意,在输入密码的过程中,密码并不可见。

  1. 登陆成功后,修改密码为000000。初始密码太难记了,我们先修改一下密码。对应的命令如下:

mysql> set password = password("000000");

  1. 使root允许任意ip连接

mysql> update mysql.user set host='%' where user='root';

mysql> flush privileges;

  1. 查看已有的数据库。通过命令:show databases;
  2. 创建数据库和表
  3. 接下来,我们去创建一个新的数据库,数据表,并插入一条数据。

    参考代码如下

    -- 创建数据库

    CREATE DATABASE spark;
    -- 使用数据库

    USE spark;

    -- 创建表

    create table person(id int, name char(20), age int);

    -- 插入示例数据

    insert into person values(1, 'jam', 20), (2,'judi', 21);

    -- 查看所有数据
    select * from person;

    -- 退出
    quit

 

提醒:use spark;的作用是使用当前数据库;

Spark连接MySQL数据库
  1. 新建项目,或者使用之前的项目也可以。
  2. 修改pom.xml文件。

【教师讲解这个三个依赖的作用,强调可以删除spark-core这个包】

补充三个依赖:

(1)scala-library 是 Scala 语言的基础库,是编写 Scala 程序的必要条件。

(2)spark-sql_2.12 提供了 Spark SQL 的功能,用于高效的数据处理和分析。

(3)mysql-connector-java 提供了与 MySQL 数据库交互的能力。

<dependency>

            <groupId>org.scala-lang</groupId>

            <artifactId>scala-library</artifactId>

            <version>2.12.15</version>

        </dependency>

        <dependency>

            <groupId>org.apache.spark</groupId>

            <artifactId>spark-sql_2.12</artifactId>

            <version>3.3.1</version>

         </dependency>

        <dependency>

            <groupId>mysql</groupId>

            <artifactId>mysql-connector-java</artifactId>

            <version>8.0.33</version>

        </dependency>

 

 

请注意,这里并没没有单独添加spark_core的依赖,因为在spark-sql中已经包含了spark_core。

  1. 写Spark程序连接mysql
  2. 核心步骤:

    1. 创建Properties对象,设置数据库的用户名和密码
    2. 使用spark.read.jbdc方法,连接数据库
    3. import org.apache.spark.sql.SparkSessionobject SparkSQL01 {/*sparksql DataFrame:一种分布式的数据集,类似于二维表格(mysql 数据库中的数据表)1.读入现成的结构化数据:csv 数据库  json2.通过RDD转换而来DataFrame:1.调用API来实现相关功能2.调用SQL语句来实现相关功能*/def main(args: Array[String]): Unit = {val spark = SparkSession.builder().appName("SparkSQL01").master("local[*]").getOrCreate()//读入文件val df = spark.read.option("header", "true").csv("input/ecommerce_data.csv")
      //
      //    //选出quantity > 5 的记录
      //    val df1 = df.filter(df("quantity") > 5)//    df1.show()//选出 quantity > 5 的记录:使用SQL来实现相关功能//1.生成一个临时数据表df.createOrReplaceTempView("ecommerce")//2.执行SQL语句val df2 = spark.sql("select * from t1 where quantity > 5")df2.show()}}
      

    4. park添加数据到mysql

      前面演示了数据的查询,现在来看看添加数据到mysql。

      【教师讲

      import org.apache.spark.sql.SparkSessionimport java.util.Propertiesobject SparkSQL02 {//连接hadoop100上的mysql数据库,读出spark数据库中的person表中的内容def main(args: Array[String]): Unit = {val spark =SparkSession.builder().appName("SparkSQL02").master("local[*]").getOrCreate()//创建一个properties对象,用来储存mysql的连接信息val prop = new Properties()prop.setProperty("user","root")prop.setProperty("password","000000")//添加一条数据到数据库val data = Seq((3,"zhangsan",30),(4,"lisi",40),(5,"wangwu",50))val df1 = spark.createDataFrame(data).toDF("id","name","age")df1.write.mode("append").jdbc("jdbc:mysql://hadoop100:3306/spark","person",prop)//读取mysql数据库中的数据val df  = spark.read.jdbc("jdbc:mysql://hadoop100:3306/spark","person",prop)df.show()}}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/905422.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

语言学中的对象语言与元语言 | 概念 / 区别 / 实例分析

注&#xff1a;英文引文&#xff0c;机翻未校。 语言学中的“对象语言”和“元语言” 刘福长 现代外语 1989年第3期&#xff08;总第45期&#xff09; 在阅读语言学著作时&#xff0c;我们有时会遇到这样两个术语&#xff1a;对象语言&#xff08;object language&#xff0…

livenessProbe 和 readinessProbe 最佳实践

在 Kubernetes 中&#xff0c;livenessProbe 和 readinessProbe 是确保应用高可用性的关键机制&#xff0c;但配置不当可能导致应用频繁重启或流量中断。以下是配置这两个探针的最佳实践&#xff1a; 1. 核心区别与作用 探针类型目的失败后果livenessProbe检测应用是否 存活&…

集成管理工具Gitlab

GitLab 是一个功能强大的开源代码托管和协作平台&#xff0c;集成 GitLab 可以显著提升团队的开发效率。下面我将为你介绍如何集成 GitLab&#xff0c;包括安装配置和基本使用流程。 一、GitLab 安装与配置 GitLab 有多种安装方式&#xff0c;推荐使用官方 Omnibus 包安装&am…

Electron-Vue3、Electron-React、Electron-Angular打造舆情监控系统项目

Electron是一个跨平台的桌面应用开发框架&#xff0c;可以让我们用html css js的技术开发跨平台桌面上可以安装的软件。视频详解: Electron教程 ElectronVue跨平台桌面软件开发教程-2024年更新&#xff08;大地老师&#xff09; 从Electron环境搭建开始到手把手教你调试、Elect…

08.webgl_buffergeometry_attributes_none ,three官方示例+编辑器+AI快速学习

本实例主要讲解内容 这个Three.js示例展示了无属性几何体渲染技术&#xff0c;通过WebGL 2的gl_VertexID特性和伪随机数生成算法&#xff0c;在着色器中动态计算顶点位置和颜色&#xff0c;而不需要在CPU端预先定义几何体数据。 核心技术包括&#xff1a; WebGL 2的顶点ID特…

Ubuntu 22.04搭建OpenStreeMap地址解析服务(保姆级教程)

1.数据准备 1.1.全球数据 下载地址&#xff1a;https://planet.openstreetmap.org/ 1.2.特定区域的数据 下载地址&#xff1a;Geofabrik Download Server 2.安装必要的软件包 2.1.更新系统软件包 sudo apt updatesudo apt upgrade 2.2.安装所需要的软件包 执行下面的命…

Ubuntu 22.04.5 LTS上部署Docker及相关优化

以下是在Ubuntu 22.04.5 LTS上部署Docker及相关优化的步骤&#xff1a; 安装Docker 更新系统&#xff1a;在安装Docker之前&#xff0c;先确保系统是最新的&#xff0c;执行以下命令&#xff1a;sudo apt update sudo apt upgrade -y安装依赖包&#xff1a;安装一些必要的依赖…

React -> AI组件 -> 调用Ollama模型, qwen3:1.7B非常聪明

使用 React 搭建一个现代化的聊天界面&#xff0c;支持与 Ollama 本地部署的大语言模型进行多轮对话。界面清爽、功能完整&#xff0c;支持 Markdown 渲染、代码高亮、<think> 隐藏思考标签、流式渐进反馈、暗黑模式适配等特性。 &#x1f9e9; 核心功能亮点 ✅ 模型选择…

vue2/3 中使用 @vue-office/docx 在网页中预览(docx、excel、pdf)文件

1. 安装依赖&#xff1a; #docx文档预览组件npm install vue-office/docx vue-demi0.14.6#excel文档预览组件npm install vue-office/excel vue-demi0.14.6#pdf文档预览组件npm install vue-office/pdf vue-demi0.14.6 vue2.6版本或以下还需要额外安装 vue/composition-api …

【应用密码学】实验五 公钥密码2——ECC

一、实验要求与目的 1.复习CCC基本概念&#xff0c;并根据实验平台提供的资料完成验证性实验。 2.编程练习&#xff1a;以书上例题小模数p为例编程实现ECC的基本运算规则。 二、实验内容与步骤记录&#xff08;只记录关键步骤与结果&#xff0c;可截图&#xff0c;但注意排版…

rust-candle学习笔记9-使用tokenizers加载qwen3分词,使用分词器处理文本

参考&#xff1a;about-pytorch&#xff0c; about-tokenizers 在魔搭社区链接下载qwen3的tokenizer.json文件 添加依赖库&#xff1a; cargo add tokenizers tokenizers库初体验&#xff1a; use tokenizers::tokenizer::{self, Result, Tokenizer};fn main() -> Resu…

【MySQL】存储引擎 - ARCHIVE、BLACKHOLE、MERGE详解

&#x1f4e2;博客主页&#xff1a;https://blog.csdn.net/2301_779549673 &#x1f4e2;博客仓库&#xff1a;https://gitee.com/JohnKingW/linux_test/tree/master/lesson &#x1f4e2;欢迎点赞 &#x1f44d; 收藏 ⭐留言 &#x1f4dd; 如有错误敬请指正&#xff01; &…

5.Redission

5.1 前文锁问题 基于 setnx 实现的分布式锁存在下面的问题&#xff1a; 重入问题&#xff1a;重入问题是指 获得锁的线程可以再次进入到相同的锁的代码块中&#xff0c;可重入锁的意义在于防止死锁&#xff0c;比如 HashTable 这样的代码中&#xff0c;他的方法都是使用 sync…

C语言主要标准版本的演进与核心区别的对比分析

以下是C语言主要标准版本的演进与核心区别的对比分析 K&R C&#xff08;1978年&#xff09; 定位‌&#xff1a;非标准化的原始版本&#xff0c;由Brian Kernighan和Dennis Ritchie定义 特性‌&#xff1a; 基础语法&#xff1a;函数声明无参数列表&#xff08;如int func…

【C++设计模式之Template Method Pattern】

C设计模式之Template Method Pattern 模式定义核心思想动机(Motivation)结构&#xff08;Structure&#xff09;实现步骤应用场景要点总结 模式定义 模式定义&#xff1a; 定义一个操作中的算法的骨架(稳定)&#xff0c;而将一些步骤延迟(变化)到子类中。Template Method使得子…

【动态导通电阻】p-GaN HEMTs正向和反向导通下的动态导通电阻

2024 年,浙江大学的 Zonglun Xie 等人基于多组双脉冲测试方法,研究了两种不同技术的商用 p-GaN 栅极 HEMTs 在正向和反向导通模式以及硬开关和软开关条件下的动态导通电阻(RON)特性。实验结果表明,对于肖特基型 p-GaN 栅极 HEMTs,反向导通时动态 RON 比正向导通高 3%-5%;…

PDFMathTranslate:科学 PDF 文件翻译及双语对照工具

PDFMathTranslate&#xff1a;科学 PDF 文件翻译及双语对照工具 在科研和学习过程中&#xff0c;我们经常会遇到大量的英文 PDF 文献&#xff0c;翻译这些文献成为了一项繁琐且耗时的工作。PDFMathTranslate 是一款强大的科学 PDF 文件翻译及双语对照工具&#xff0c;它能够保…

Flutter PIP 插件 ---- 为iOS 重构PipController, Demo界面,更好的体验

接上文 Flutter PIP 插件 ---- 新增PipActivity&#xff0c;Android 11以下支持自动进入PIP Mode 项目地址 PIP&#xff0c; pub.dev也已经同步发布 pip 0.0.3&#xff0c;你的加星和点赞&#xff0c;将是我继续改进最大的动力 在之前的界面设计中&#xff0c;还原动画等体验一…

【Ansible】之inventory主机清单

前言 本篇博客主要解释Ansible主机清单的相关配置知识 一、inventory 主机清单 Inventory支持对主机进行分组&#xff0c;每个组内可以定义多个主机&#xff0c;每个主机都可以定义在任何一个或多个主机组内。 如果是名称类似的主机&#xff0c;可以使用列表的方式表示各个主机…

基于几何布朗运动的股价预测模型构建与分析

基于几何布朗运动的股价预测模型构建与分析 摘要 本文建立基于几何布朗运动的股价预测模型&#xff0c;结合极大似然估计与蒙特卡洛模拟&#xff0c;推导股价条件概率密度函数并构建动态预测区间。实证分析显示模型在标普500指数预测中取得89%的覆盖概率&#xff0c;波动率估…