Python进阶编程 --- 2.MySQL、pymysql、PySpark

文章目录

- 第一章：SQL基础入门
- - 1.1 数据库
  - - 数据库如何存储数据
  - 1.2 数据库和SQL的关系
  - 1.3 MySQL版本
  - 1.4 命令提示符内使用MySQL
  - 1.5 SQL概述
  - - 1.5.1 SQL语言分类
    - 1.5.2 SQL语言特性
  - 1.6 DDL
  - - - 库管理
      - 表管理
  - 1.7 DML - 数据操作
  - 1.8 DQL - 查询和计算数据
  - - 1.8.1 基础数据查询
    - 1.8.2基础数据查询 - 过滤
    - 1.8.3 分组聚合
    - 1.8.4 结果排序
    - 1.8.5 结果分页限制
  - 1.9 Python - MySQL
  - - 1.9.1 pymysql
    - 1.9.2 数据插入
- 第二章：PySpark基础入门
- - 2.1 PySpark库的安装
  - 2.2 PySpark编程步骤
  - 2.3 PySpark编程模型
  - 2.4 数据输入
  - - 2.4.1 RDD对象
    - 2.4.2 Python数据容器转RDD对象
    - 2.4.3 读取文件转RDD对象
  - 2.5 数据计算
  - - 2.5.1 map方法

第一章：SQL基础入门

1.1 数据库

在这里插入图片描述

数据库如何存储数据

在这里插入图片描述

1.2 数据库和SQL的关系

数据库用来存储数据，在该过程中，将会涉及：

新增数据
删除数据
修改数据
查询数据
数据库、数据表的管理
等

SQL语言是一种对数据库、数据进行操作、管理、查询的工具。

1.3 MySQL版本

社区版(免费)
集群版(免费)
商业版(收费)
高级集群版(收费)

1.4 命令提示符内使用MySQL

打开命令提示符程序，输入：mysql -uroot -p，回车输入密码，即可进入命令行环境

show database; //查看有哪些数据库
use 数据库名 //使用某个数据库
show tables //查看数据库内有哪些表
exit //退出MySQL的命令行环境

1.5 SQL概述

SQL：结构化查询语言，用于访问和处理数据库的标准的计算机语言

1.5.1 SQL语言分类

数据定义：DDL

 库的创建删除、表的删除创建等

数据操纵：DML

  新增数据、删除数据、修改数据等

数据控制：DCL

  新增用户、删除用户、密码修改、权限管理等

数据查询：DQL
```
  基于需求查询和计算数据
```

1.5.2 SQL语言特性

大小写不敏感
可单行或多行书写，;号结束
支持注释
单行注释： – 注释内容(–后面要有一个空格)
单行注释：# 注释内容
```
多行注释：/* 注释内容 */
```

1.6 DDL

库管理

查看数据库：SHOW DATATBASES;
USE 数据库名;
CREATE DATABASE 数据库名 [CHARSET UTF8];
DROP DATABASE 数据库名;
SELECT DATABASE();

在这里插入图片描述

表管理

查看表：SHOW TABLES; # 使用前需先选择数据库

删除表：DROP TABLE 表名;

                 DROP TABLE IF EXISTS 表名;

创建表：CREATE TABLE 表名(
列名称列类型，
列名称列类型
…
);

列类型说明
int 整数
float 浮点数
varchar(长度) 文本，长度为数字，为最大长度限制
date 日期
timestamp 时间戳

列类型	说明
int	整数
float	浮点数
varchar(长度)	文本，长度为数字，为最大长度限制
date	日期
timestamp	时间戳

在这里插入图片描述

1.7 DML - 数据操作

插入INSERT：INSERT INTO表[(列1，列2，…，列N)] VALUES(值1，值2，…，值N) [，(值1，值2，…，值N)，…，(值1，值2，…，值N)];
删除DELETE：DELETE FROM 表名 [WHERE 条件判断];
更新UPDATE：UPDATE 表名 SET 列=值 [WHERE 条件判断];

在这里插入图片描述

1.8 DQL - 查询和计算数据

1.8.1 基础数据查询

语法：SELECT 字段列表 |* FROM 表
在这里插入图片描述

1.8.2基础数据查询 - 过滤

语法：SELECT 字段列表 |* FROM 表 WHERE 条件判断

在这里插入图片描述

1.8.3 分组聚合

语法：SELECT 字段| 聚合函数 FROM 表 [WHERE 条件] GROUP BY 列

聚合函数：

SUM(列) 求和
AVG(列) 求平均值
MIN(列) 求最小值
MAX(列) 求最大值
COUNT(列|*) 求数量

在这里插入图片描述

1.8.4 结果排序

语法：

SELECT 列|聚合函数|* FROM 表

WHERE …

GROUP BY …

ORDER BY … [ASC | DESC]
在这里插入图片描述

1.8.5 结果分页限制

语法：

SELECT 列|聚合函数|* FROM 表

WHERE …

GROUP BY …

ORDER BY … [ASC | DESC]

LIMIT n[, m]

在这里插入图片描述

执行顺序：FROM->WHERE->GROUP BY与聚合函数 -> SELECT -> ORDER BY -> LIMIT

1.9 Python - MySQL

1.9.1 pymysql

基础使用

安装：pip install pymysql

创建到MySQL的数据库链接

from pymysql import Connection
# 获取到MySQL数据库的链接对象
conn = Connection(host="localhost",    # 主机名port=3306,           # 端口user="root",         # 账户名password="123456"    # 密码
)print(conn.get_server_info()) # 打印MySQL数据库信息conn.close() # 关闭到数据库的链接

执行SQL语句

from pymysql import Connection
# 获取到MySQL数据库的链接对象
conn = Connection(host="localhost",    # 主机名port=3306,           # 端口user="root",         # 账户名password="123456"    # 密码
)cursor = conn.cursor() # 获取游标对象
conn.select_db("world") # 选择数据库
cursor.execute("select * from student") # 用游标对象，执行SQL语句
results: tuple = cursor.fetchall() # 获取查询结果
for r in results:print(r)
conn.close() # 关闭到数据库的链接

1.9.2 数据插入

commit提交

pymysql在执行数据插入或其他产生数据更改的SQL语句时，默认是需要提交更改的，通过代码确认该更改行为

链接对象.commit()即可确认此行为

from pymysql import Connection
# 获取到MySQL数据库的链接对象
conn = Connection(host="localhost",    # 主机名port=3306,           # 端口user="root",         # 账户名password="123456"    # 密码
)cursor = conn.cursor() # 获取游标对象
conn.select_db("world") # 选择数据库
cursor.execute("insert into student values(7, '小东', 20)") # 用游标对象，执行SQL语句
conn.commit() # 确认
conn.close() # 关闭到数据库的链接

自动commit

conn = Connection(host="localhost",    # 主机名port=3306,           # 端口user="root",         # 账户名password="123456",   # 密码autocommit= True     # 设置自动提交  
)

第二章：PySpark基础入门

Spark:Apache Spark是用于大规模数据处理的同一分析引擎。

Spark是一款分布式的计算框架，用于调度成百上千的服务器集群，计算海量数据

PySpark是由Spark官方开发的Python语言第三方库

2.1 PySpark库的安装

安装：pip install pyspark

构建PySpark执行环境入口对象

执行环境入口对象：类 SparkContext的类对象

from pyspark import SparkConf,SparkContext # 导包conf = SparkConf().setMaster("local[*]").setAppName(("test_spark")) # 创建SparkConf类对象sc = SparkContext(conf=conf) # 基于SparkConf类对象创建SparkContext类对象print(sc.version) # 打印PySpark的运行版本sc.stop() # 停止SparkContext对象的运行

SparkContext类对象，是PySpark编程中一切功能的入口

2.2 PySpark编程步骤

PySpark编程，主要分三大步骤：

数据输入：通过SparkContext类对象的成员方法完成对数据的读取操作，读取后获得RDD类对象
数据处理计算：通过RDD类对象的成员方法，完成各种数据计算的需求
数据输出：将处理完的RDD对象，调用各种成员方法完成写出文件、转换为list等操作

2.3 PySpark编程模型

在这里插入图片描述

通过SparkContext对象完成数据输入
输入数据后得到RDD对象，对RDD对象进行迭代计算
最终通过RDD对象的成员方法完成数据输出

2.4 数据输入

2.4.1 RDD对象

RDD全称为：弹性分布式数据集

PySpark针对数据的处理，都以RDD对象作为载体

数据存储在RDD内
各类数据的计算方法，也都为RDD的成员方法
RDD的数据计算方法，返回值依然是RDD对象

2.4.2 Python数据容器转RDD对象

通过SparkContext对象的parallelize成员方法，将list\tuple\set\dict\str转为PySpark的RDD对象

在转换时，需注意字符串会被拆成一个个的字符，存入RDD对象中，字典仅有key会被存入RDD对象中。

from pyspark import SparkConf,SparkContext # 导包
conf = SparkConf().setMaster("local[*]").setAppName(("test_spark")) # 创建SparkConf类对象
sc = SparkContext(conf=conf) # 基于SparkConf类对象创建SparkContext类对象rdd1 = sc.parallelize([1, 2, 3])
rdd2 = sc.parallelize((1, 2, 3))
rdd3 = sc.parallelize("hello")
rdd4 = sc.parallelize({1, 2, 3})
rdd5 = sc.parallelize({"key1":1, "key2": 2})print(rdd1.collect()) # 输出RDD内容
print(rdd2.collect()) # 输出RDD内容
print(rdd3.collect()) # 输出RDD内容
print(rdd4.collect()) # 输出RDD内容
print(rdd5.collect()) # 输出RDD内容sc.stop() # 停止SparkContext对象的运行

2.4.3 读取文件转RDD对象

通过SparkContext入口对象，读取文件，构建出RDD对象

from pyspark import SparkConf,SparkContext # 导包
conf = SparkConf().setMaster("local[*]").setAppName(("test_spark")) # 创建SparkConf类对象
sc = SparkContext(conf=conf) # 基于SparkConf类对象创建SparkContext类对象
rdd = sc.textFile("E:/learn - coding/Python/2024_04_13/hello.txt")
print(rdd.collect())
sc.stop() # 停止SparkContext对象的运行

2.5 数据计算

2.5.1 map方法

PySpark的数据计算，都基于RDD对象进行的，依赖于RDD对象中内置丰富的成员方法(算子)

map算子：将RDD的数据一条条处理，返回新的RDD

语法：

rdd.map(func)
# func: f:(T) -> U
# f：表示这是一个函数或方法
# (T) -> U 表示的是方法的定义
# () 表示传入参数，(T)表示传入1个参数，()表示没有传入参数
# T 泛型的代称，在这表示任意类型
# U 泛型的代称，在这表示任意类型
# -> U 表示返回值
# (T) -> U 表示这是个方法，该方法接受一个参数传入，传入参数类型不限，返回一个返回值，返回值类型不限
# (A) -> A 表示这是个方法，该方法接受一个参数传入，传入参数类型不限，返回一个返回值，返回值类型和传入参数类型一致