【数据挖掘】Matplotlib

Matplotlib 是 Python 最常用的 数据可视化 库之一,在数据挖掘过程中,主要用于 数据探索 (EDA)趋势分析模式识别结果展示


📌 1. Matplotlib 基础

1.1 安装 & 导入

# 如果未安装 Matplotlib,请先安装
# pip install matplotlibimport matplotlib.pyplot as plt
import numpy as np

1.2 基本绘图

x = np.linspace(0, 10, 100)  # 生成 100 个 0-10 之间的等距点
y = np.sin(x)plt.plot(x, y)  # 画图
plt.xlabel("X 轴")  # X 轴标签
plt.ylabel("Y 轴")  # Y 轴标签
plt.title("Sine Wave")  # 图标题
plt.grid(True)  # 添加网格
plt.show()  # 显示图像

📌 输出: 绘制 正弦曲线 📈


📌 2. 常见图表类型

2.1 折线图 (Line Plot)

x = np.arange(1, 11)
y = np.random.randint(10, 100, size=10)plt.plot(x, y, marker="o", linestyle="-", color="b", label="数据趋势")
plt.legend()
plt.show()

📌 适用场景: 用于 趋势分析时间序列数据


2.2 散点图 (Scatter Plot)

x = np.random.rand(50)
y = np.random.rand(50)plt.scatter(x, y, color="g", alpha=0.7)  # 透明度 alpha 控制点的透明度
plt.title("Scatter Plot")
plt.show()

📌 适用场景: 适合用于 关系分析、聚类分析


2.3 柱状图 (Bar Chart)

categories = ["A", "B", "C", "D", "E"]
values = [10, 25, 15, 30, 20]plt.bar(categories, values, color="orange")
plt.title("Bar Chart Example")
plt.show()

📌 适用场景: 适用于 类别数据分析


2.4 直方图 (Histogram)

data = np.random.randn(1000)  # 生成 1000 个随机数plt.hist(data, bins=30, color="purple", alpha=0.75)
plt.title("Histogram Example")
plt.show()

📌 适用场景: 适合 分布分析,如 正态分布检验


2.5 盒须图 (Box Plot)

data = [np.random.rand(100) * i for i in range(1, 5)]plt.boxplot(data, patch_artist=True)
plt.title("Box Plot Example")
plt.show()

📌 适用场景: 适合 异常值分析、数据分布分析


📌 3. 进阶绘图技巧

3.1 子图 (Subplot)

fig, axes = plt.subplots(2, 2, figsize=(10, 8))x = np.linspace(0, 10, 100)
axes[0, 0].plot(x, np.sin(x))
axes[0, 0].set_title("Sine Wave")axes[0, 1].scatter(np.random.rand(50), np.random.rand(50))
axes[0, 1].set_title("Scatter Plot")axes[1, 0].bar(["A", "B", "C"], [10, 20, 30])
axes[1, 0].set_title("Bar Chart")axes[1, 1].hist(np.random.randn(1000), bins=30)
axes[1, 1].set_title("Histogram")plt.tight_layout()  # 自动调整子图间距
plt.show()

📌 适用场景:一个画布上同时绘制多个图表


3.2 统计相关性分析

import seaborn as sns
import pandas as pd# 生成随机数据
df = pd.DataFrame(np.random.rand(10, 4), columns=["A", "B", "C", "D"])# 计算相关性
correlation_matrix = df.corr()# 相关性热图
plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix, annot=True, cmap="coolwarm", linewidths=0.5)
plt.title("Correlation Matrix Heatmap")
plt.show()

📌 适用场景: 特征工程、变量相关性分析


3.3 动态更新数据

import timeplt.ion()  # 开启交互模式
fig, ax = plt.subplots()x = []
y = []for i in range(10):x.append(i)y.append(np.random.randint(1, 10))ax.clear()ax.plot(x, y, marker="o", linestyle="-", color="b")plt.pause(0.5)plt.ioff()  # 关闭交互模式
plt.show()

📌 适用场景: 实时数据可视化,如股市走势


📌 4. Matplotlib 在数据挖掘中的应用

数据挖掘任务适用图表
数据探索 (EDA)直方图、盒须图、散点图
趋势分析折线图
相关性分析热图、散点图
异常值检测盒须图
分类数据分析柱状图
数据分布分析直方图

📌 5. 总结

Matplotlib 在数据挖掘中的核心作用: ✅ 数据可视化:帮助理解数据的分布、趋势、相关性
异常值检测:通过箱线图、散点图检测异常点
模式识别:发现数据中的模式或聚类结构
结果展示:清晰直观地展示数据分析和挖掘结果

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/72243.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DHCP配置实验

实验拓扑图 首先配置server的IP地址和网关 接下来配置R1 undo info-center enable dhcp enable //开启DHCP服务 ip pool dhcp-pool1 //开始配置dhcp地址池 gateway-list 192.168.1.254 //配置网关 network 192.168.1.0 mask 255.255.255.0 //配置网段和子网掩码 dns-list …

Linux:ELF文件-静动态库原理

✨✨所属专栏:Linux✨✨ ✨✨作者主页:嶔某✨✨ ELF文件 什么是编译?编译就是将程序源代码编译成能让CPU直接执行的机器代码 如果我们要编译一个 .c文件,使用gcc -c将.c文件编译为二进制文件.o ,如果一个项目有多个.…

C++性能优化常用技巧

一. 选择合适的数据结构 1.1 map与unordered_map的选择 如果仅仅只需要使用到快速查找的特性,那么unordered_map更加合适,他的复杂度是O(1)。如果还需要排序以及范围查找的能力,那么就选择map。 1.2 vector与list的选择 通常情况下&#…

Towards Graph Foundation Models: A Survey and Beyond

Towards Graph Foundation Models: A Survey and Beyond WWW24 ​#paper/⭐⭐⭐#​ #paper/💡#​ 背景和动机 背景与意义 随着基础模型(如大语言模型)在NLP等领域的突破,图机器学习正经历从浅层方法向深度学习的范式转变。GFM…

基于 Python 深度学习的电影评论情感分析可视化系统(2.0 全新升级)

基于 Python 深度学习的电影评论情感分析可视化系统,基于 Flask 深度学习,构建了一个 影评情感分析系统,能够 自动分析影评、计算情感趋势 并 可视化展示,对于电影行业具有重要参考价值! 基于 Python 深度学习的电影评…

Cargo, the Rust package manager, is not installed or is not on PATH.

今天在Windows操作系统上通过pip 安装jupyter的时候遇到这个报错,Cargo, the Rust package manager, is not installed or is not on PATH.。 解决办法 官网:https://rustup.rs/# 下载:https://win.rustup.rs/x86_64 安装完成之后&#xff0c…

CSS—text文本、font字体、列表list、表格table、表单input、下拉菜单select

目录 1.文本 2.字体 3.列表list a.无序列表 b.有序列表 c.定义列表 4.表格table a.内容 b.合并单元格 3.表单input a.input标签 b.单选框 c.上传文件 4.下拉菜单 1.文本 属性描述color设置文本颜色。direction指定文本的方向 / 书写方向。letter-spacing设置字符…

开启AI短剧新纪元!SkyReels-V1/A1双剑合璧!昆仑万维开源首个面向AI短剧的视频生成模型

论文链接:https://arxiv.org/abs/2502.10841 项目链接:https://skyworkai.github.io/skyreels-a1.github.io/ Demo链接:https://www.skyreels.ai/ 开源地址:https://github.com/SkyworkAI/SkyReels-A1 https://github.com/Skywork…

数学建模:MATLAB极限学习机解决回归问题

一、简述 极限学习机是一种用于训练单隐层前馈神经网络的算法,由输入层、隐藏层、输出层组成。 基本原理: 输入层接受传入的样本数据。 在训练过程中随机生成从输入层到隐藏层的所有连接权重以及每个隐藏层神经元的偏置值,这些参数在整个…

Android15音频进阶之定位混音线程丢帧问题(一百零八)

简介: CSDN博客专家、《Android系统多媒体进阶实战》一书作者 新书发布:《Android系统多媒体进阶实战》🚀 优质专栏: Audio工程师进阶系列【原创干货持续更新中……】🚀 优质专栏: 多媒体系统工程师系列【原创干货持续更新中……】🚀 优质视频课程:AAOS车载系统+…

_ 为什么在python中可以当变量名

在 Python 中,_(下划线)是一个有效的变量名,这主要源于 Python 的命名规则和一些特殊的使用场景。以下是为什么 _ 可以作为变量名的原因和常见用途: --- ### 1. **Python 的命名规则** Python 允许使用字母&#xff…

Electron+Vite+React+TypeScript开发问题手册

ElectronViteReactTypeScript跨平台开发全问题手册 一、开发环境配置类问题 1.1 依赖安装卡顿(国内网络环境) 问题现象:执行npm install时卡在node-gyp编译或Electron二进制包下载阶段 解决方案: # 配置国内镜像源 npm config …

【计算机网络入门】初学计算机网络(七)

目录 1. 滑动窗口机制 2. 停止等待协议(S-W) 2.1 滑动窗口机制 2.2 确认机制 2.3 重传机制 2.4 为什么要给帧编号 3. 后退N帧协议(GBN) 3.1 滑动窗口机制 3.2 确认机制 3.3 重传机制 4. 选择重传协议(SR&a…

《Python实战进阶》No 8:部署 Flask/Django 应用到云平台(以Aliyun为例)

第8集:部署 Flask/Django 应用到云平台(以Aliyun为例) 2025年3月1日更新 增加了 Ubuntu服务器安装Python详细教程链接。 引言 在现代 Web 开发中,开发一个功能强大的应用只是第一步。为了让用户能够访问你的应用,你需…

GitLab Pages 托管静态网站

文章目录 新建项目配置博客添加 .gitlab-ci.yml其他配置 曾经用 Github Pages 来托管博客内容,但是有一些不足: 在不科学上网的情况下,是没法访问的,或者访问速度非常慢代码仓库必须是公开的,如果设置为私有&#xff0…

TVbox蜂蜜影视:智能电视观影新选择,简洁界面与强大功能兼具

蜂蜜影视是一款基于猫影视开源项目 CatVodTVJarLoader 开发的智能电视软件,专为追求简洁与高效观影体验的用户设计。该软件从零开始编写,界面清爽,操作流畅,特别适合在智能电视上使用。其最大的亮点在于能够自动跳过失效的播放地址…

形象生动讲解Linux 虚拟化 I/O

用现实生活的比喻和简单例子来解释 Linux 虚拟化 I/O,就像给朋友讲故事一样。 虚拟化 I/O 要解决什么问题? 想象你有一栋大房子(物理服务器),想把它分割成多个小公寓(虚拟机)出租。每个租客&…

Java内存管理与性能优化实践

Java内存管理与性能优化实践 Java作为一种广泛使用的编程语言,其内存管理和性能优化是开发者在日常工作中需要深入了解的重要内容。Java的内存管理机制借助于垃圾回收(GC)来自动处理内存的分配和释放,但要实现高效的内存管理和优…

代码随想录算法训练营第三十天 | 卡码网46.携带研究材料(二维解法)、卡码网46.携带研究材料(滚动数组)、LeetCode416.分割等和子集

代码随想录算法训练营第三十天 | 卡码网46.携带研究材料(二维解法)、卡码网46.携带研究材料(滚动数组)、LeetCode416.分割等和子集 01-1 卡码网46.携带研究材料(二维) 相关资源 题目链接:46. 携…

nvidia驱动更新,centos下安装openwebui+ollama(非docker)

查看centos内核版本 uname -a cat /etc/redhat-release下载对应的程序(这个是linux64位版本通用的) https://cn.download.nvidia.cn/tesla/550.144.03/NVIDIA-Linux-x86_64-550.144.03.run cudnn想办法自己下一下,我这里是12.x和11.x通用的…