文章目录
- 第一章:SQL基础入门
- 1.1 数据库
- 数据库如何存储数据
 
- 1.2 数据库和SQL的关系
- 1.3 MySQL版本
- 1.4 命令提示符内使用MySQL
- 1.5 SQL概述
- 1.5.1 SQL语言分类
- 1.5.2 SQL语言特性
 
- 1.6 DDL
- 库管理
- 表管理
 
 
- 1.7 DML - 数据操作
- 1.8 DQL - 查询和计算数据
- 1.8.1 基础数据查询
- 1.8.2基础数据查询 - 过滤
- 1.8.3 分组聚合
- 1.8.4 结果排序
- 1.8.5 结果分页限制
 
- 1.9 Python - MySQL
- 1.9.1 pymysql
- 1.9.2 数据插入
 
 
- 第二章:PySpark基础入门
- 2.1 PySpark库的安装
- 2.2 PySpark编程步骤
- 2.3 PySpark编程模型
- 2.4 数据输入
- 2.4.1 RDD对象
- 2.4.2 Python数据容器转RDD对象
- 2.4.3 读取文件转RDD对象
 
- 2.5 数据计算
- 2.5.1 map方法
 
 
 
第一章:SQL基础入门
1.1 数据库

数据库如何存储数据

1.2 数据库和SQL的关系
数据库用来存储数据,在该过程中,将会涉及:
-  新增数据 
-  删除数据 
-  修改数据 
-  查询数据 
-  数据库、数据表的管理 
-  等 
SQL语言是一种对数据库、数据进行操作、管理、查询的工具。
1.3 MySQL版本
-  社区版(免费) 
-  集群版(免费) 
-  商业版(收费) 
-  高级集群版(收费) 
1.4 命令提示符内使用MySQL
打开命令提示符程序,输入:mysql -uroot -p,回车输入密码,即可进入命令行环境
-  show database; //查看有哪些数据库 
-  use 数据库名 //使用某个数据库 
-  show tables //查看数据库内有哪些表 
-  exit //退出MySQL的命令行环境 
1.5 SQL概述
SQL:结构化查询语言,用于访问和处理数据库的标准的计算机语言
1.5.1 SQL语言分类
-  数据定义:DDL 库的创建删除、表的删除创建等
-  数据操纵:DML 新增数据、删除数据、修改数据等
-  数据控制:DCL 新增用户、删除用户、密码修改、权限管理等
-  数据查询:DQL 基于需求查询和计算数据
1.5.2 SQL语言特性
-  大小写不敏感 
-  可单行或多行书写,;号结束 
-  支持注释 
 单行注释: – 注释内容(–后面要有一个空格)
 单行注释:# 注释内容多行注释:/* 注释内容 */
1.6 DDL
库管理
-  查看数据库:SHOW DATATBASES; 
-  USE 数据库名; 
-  CREATE DATABASE 数据库名 [CHARSET UTF8]; 
-  DROP DATABASE 数据库名; 
-  SELECT DATABASE(); 

表管理
-  查看表:SHOW TABLES; # 使用前需先选择数据库 
-  删除表:DROP TABLE 表名; DROP TABLE IF EXISTS 表名;
-  创建表:CREATE TABLE 表名( 
 列名称 列类型,
 列名称 列类型
 …
 );列类型 说明 int 整数 float 浮点数 varchar(长度) 文本,长度为数字,为最大长度限制 date 日期 timestamp 时间戳 

 
1.7 DML - 数据操作
-  插入INSERT:INSERT INTO表[(列1,列2,…,列N)] VALUES(值1,值2,…,值N) [,(值1,值2,…,值N),…,(值1,值2,…,值N)]; 
-  删除DELETE:DELETE FROM 表名 [WHERE 条件判断]; 
-  更新UPDATE:UPDATE 表名 SET 列=值 [WHERE 条件判断]; 
-   

 
 
 

1.8 DQL - 查询和计算数据
1.8.1 基础数据查询
语法:SELECT 字段列表 |* FROM 表
 
 
1.8.2基础数据查询 - 过滤
语法:SELECT 字段列表 |* FROM 表 WHERE 条件判断

1.8.3 分组聚合
语法:SELECT 字段| 聚合函数 FROM 表 [WHERE 条件] GROUP BY 列
聚合函数:
-  SUM(列) 求和 
-  AVG(列) 求平均值 
-  MIN(列) 求最小值 
-  MAX(列) 求最大值 
-  COUNT(列|*) 求数量 

1.8.4 结果排序
语法:
SELECT 列|聚合函数|* FROM 表
WHERE …
GROUP BY …
ORDER BY … [ASC | DESC]
 
1.8.5 结果分页限制
语法:
SELECT 列|聚合函数|* FROM 表
WHERE …
GROUP BY …
ORDER BY … [ASC | DESC]
LIMIT n[, m]

执行顺序:FROM->WHERE->GROUP BY与聚合函数 -> SELECT -> ORDER BY -> LIMIT
1.9 Python - MySQL
1.9.1 pymysql
基础使用
安装:pip install pymysql
创建到MySQL的数据库链接
from pymysql import Connection
# 获取到MySQL数据库的链接对象
conn = Connection(host="localhost",    # 主机名port=3306,           # 端口user="root",         # 账户名password="123456"    # 密码
)print(conn.get_server_info()) # 打印MySQL数据库信息conn.close() # 关闭到数据库的链接
执行SQL语句
from pymysql import Connection
# 获取到MySQL数据库的链接对象
conn = Connection(host="localhost",    # 主机名port=3306,           # 端口user="root",         # 账户名password="123456"    # 密码
)cursor = conn.cursor() # 获取游标对象
conn.select_db("world") # 选择数据库
cursor.execute("select * from student") # 用游标对象,执行SQL语句
results: tuple = cursor.fetchall() # 获取查询结果
for r in results:print(r)
conn.close() # 关闭到数据库的链接
1.9.2 数据插入
commit提交
pymysql在执行数据插入或其他产生数据更改的SQL语句时,默认是需要提交更改的,通过代码确认该更改行为
链接对象.commit()即可确认此行为
from pymysql import Connection
# 获取到MySQL数据库的链接对象
conn = Connection(host="localhost",    # 主机名port=3306,           # 端口user="root",         # 账户名password="123456"    # 密码
)cursor = conn.cursor() # 获取游标对象
conn.select_db("world") # 选择数据库
cursor.execute("insert into student values(7, '小东', 20)") # 用游标对象,执行SQL语句
conn.commit() # 确认
conn.close() # 关闭到数据库的链接
自动commit
conn = Connection(host="localhost",    # 主机名port=3306,           # 端口user="root",         # 账户名password="123456",   # 密码autocommit= True     # 设置自动提交  
)
第二章:PySpark基础入门
Spark:Apache Spark是用于大规模数据处理的同一分析引擎。
Spark是一款分布式的计算框架,用于调度成百上千的服务器集群,计算海量数据
PySpark是由Spark官方开发的Python语言第三方库
2.1 PySpark库的安装
安装:pip install pyspark
构建PySpark执行环境入口对象
执行环境入口对象:类 SparkContext的 类对象
from pyspark import SparkConf,SparkContext # 导包conf = SparkConf().setMaster("local[*]").setAppName(("test_spark")) # 创建SparkConf类对象sc = SparkContext(conf=conf) # 基于SparkConf类对象创建SparkContext类对象print(sc.version) # 打印PySpark的运行版本sc.stop() # 停止SparkContext对象的运行
SparkContext类对象,是PySpark编程中一切功能的入口
2.2 PySpark编程步骤
PySpark编程,主要分三大步骤:
-  数据输入:通过SparkContext类对象的成员方法完成对数据的读取操作,读取后获得RDD类对象 
-  数据处理计算:通过RDD类对象的成员方法,完成各种数据计算的需求 
-  数据输出:将处理完的RDD对象,调用各种成员方法完成写出文件、转换为list等操作 
2.3 PySpark编程模型

-  通过SparkContext对象完成数据输入 
-  输入数据后得到RDD对象,对RDD对象进行迭代计算 
-  最终通过RDD对象的成员方法完成数据输出 
2.4 数据输入
2.4.1 RDD对象
RDD全称为:弹性分布式数据集
PySpark针对数据的处理,都以RDD对象作为载体
-  数据存储在RDD内 
-  各类数据的计算方法,也都为RDD的成员方法 
-  RDD的数据计算方法,返回值依然是RDD对象 
2.4.2 Python数据容器转RDD对象
通过SparkContext对象的parallelize成员方法,将list\tuple\set\dict\str转为PySpark的RDD对象
在转换时,需注意字符串会被拆成一个个的字符,存入RDD对象中,字典仅有key会被存入RDD对象中。
from pyspark import SparkConf,SparkContext # 导包
conf = SparkConf().setMaster("local[*]").setAppName(("test_spark")) # 创建SparkConf类对象
sc = SparkContext(conf=conf) # 基于SparkConf类对象创建SparkContext类对象rdd1 = sc.parallelize([1, 2, 3])
rdd2 = sc.parallelize((1, 2, 3))
rdd3 = sc.parallelize("hello")
rdd4 = sc.parallelize({1, 2, 3})
rdd5 = sc.parallelize({"key1":1, "key2": 2})print(rdd1.collect()) # 输出RDD内容
print(rdd2.collect()) # 输出RDD内容
print(rdd3.collect()) # 输出RDD内容
print(rdd4.collect()) # 输出RDD内容
print(rdd5.collect()) # 输出RDD内容sc.stop() # 停止SparkContext对象的运行
2.4.3 读取文件转RDD对象
通过SparkContext入口对象,读取文件,构建出RDD对象
from pyspark import SparkConf,SparkContext # 导包
conf = SparkConf().setMaster("local[*]").setAppName(("test_spark")) # 创建SparkConf类对象
sc = SparkContext(conf=conf) # 基于SparkConf类对象创建SparkContext类对象
rdd = sc.textFile("E:/learn - coding/Python/2024_04_13/hello.txt")
print(rdd.collect())
sc.stop() # 停止SparkContext对象的运行
2.5 数据计算
2.5.1 map方法
PySpark的数据计算,都基于RDD对象进行的,依赖于RDD对象中内置丰富的成员方法(算子)
map算子:将RDD的数据一条条处理,返回新的RDD
语法:
rdd.map(func)
# func: f:(T) -> U
# f:表示这是一个函数或方法
# (T) -> U 表示的是方法的定义
# () 表示传入参数,(T)表示传入1个参数,()表示没有传入参数
# T 泛型的代称,在这表示任意类型
# U 泛型的代称,在这表示任意类型
# -> U 表示返回值
# (T) -> U 表示这是个方法,该方法接受一个参数传入,传入参数类型不限,返回一个返回值,返回值类型不限
# (A) -> A 表示这是个方法,该方法接受一个参数传入,传入参数类型不限,返回一个返回值,返回值类型和传入参数类型一致