Python中NumPy的统计运算

在数据分析和科学计算领域,Python凭借其丰富的库生态系统成为首选工具之一,而NumPy作为Python数值计算的核心库,凭借其高效的数组操作和强大的统计运算功能,广泛应用于机器学习、信号处理、统计分析等场景。本文将系统介绍NumPy在统计运算中的核心功能,涵盖基础统计量计算、多维数组操作、高级统计方法及实际应用案例,帮助读者全面掌握NumPy的统计运算能力。

一、NumPy统计运算基础

NumPy提供了丰富的统计函数,可对数组元素进行快速计算。以下是常用统计函数的分类与示例:

1. 基础统计量

  • 求和与均值sum()mean()
    示例:arr = np.array([1, 2, 3, 4, 5])
    print(arr.sum()) 输出 15print(arr.mean()) 输出 3.0
  • 最大值与最小值max()min()
    示例:print(arr.max()) 输出 5print(arr.min()) 输出 1
  • 标准差与方差std()var()
    示例:print(arr.std()) 输出标准差,print(arr.var()) 输出方差。

2. 累计运算

  • 累计和与累计积cumsum()cumprod()
    示例:print(arr.cumsum()) 输出 [1, 3, 6, 10, 15]

3. 索引定位

  • 最大/最小值索引argmax()argmin()
    示例:print(arr.argmax()) 输出 4(最大值5的索引)。

4. 高级统计量

  • 中位数median()
    示例:print(np.median(arr)) 输出 3.0
  • 四分位数与极差percentile()ptp()
    示例:print(np.percentile(arr, 75)) 输出 4.0(75%分位数)。

二、多维数组的统计运算

NumPy支持对多维数组按指定轴(axis)进行统计运算,这是其核心优势之一。

1. 示例数据

import numpy as np
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

2. 按轴计算

  • 按列计算axis=0
    示例:print(data.mean(axis=0)) 输出 [4. 5. 6.](每列均值)。
  • 按行计算axis=1
    示例:print(data.sum(axis=1)) 输出 [ 6 15 24](每行和)。

3. 广播机制

NumPy的广播机制允许对不同形状的数组进行运算。例如:

a = np.array([1, 2, 3])
b = 2
print(a + b)  # 输出 `[3 4 5]`

三、高级统计方法

1. 协方差与相关系数

  • 协方差矩阵np.cov()
    示例:print(np.cov(data.T)) 输出变量间的协方差矩阵。
  • 相关系数矩阵np.corrcoef()
    示例:print(np.corrcoef(data.T)) 输出变量间的相关系数矩阵。

2. 偏度与峰度

需借助scipy.stats模块:

from scipy.stats import skew, kurtosis
data = np.random.normal(0, 1, 1000)
print(skew(data))  # 偏度
print(kurtosis(data))  # 峰度

3. 离群值检测

通过四分位距(IQR)检测离群值:

Q1 = np.percentile(data, 25)
Q3 = np.percentile(data, 75)
IQR = Q3 - Q1
outliers = (data < (Q1 - 1.5 * IQR)) | (data > (Q3 + 1.5 * IQR))
print(outliers.sum())  # 输出离群值数量

4. 几何平均数与调和平均数

  • 几何平均数
    geom_mean = np.exp(np.mean(np.log(data[data > 0])))
    
  • 调和平均数
    harm_mean = len(data) / np.sum(1.0 / data[data > 0])
    

四、实际应用案例

1. 数据标准化

将数据转换为均值为0、标准差为1的分布:

normalized_data = (data - np.mean(data, axis=0)) / np.std(data, axis=0)

2. 累积分布与插值

  • 累积分布
    sorted_data = np.sort(data.flatten())
    cdf = np.arange(1, len(sorted_data)+1) / len(sorted_data)
    
  • 插值
    x = np.array([0, 1, 2, 3])
    y = np.array([0, 1, 4, 9])
    x_new = np.linspace(0, 3, 5)
    y_new = np.interp(x_new, x, y)
    

3. 随机数生成与统计

生成正态分布随机数并计算其统计量:

random_data = np.random.normal(0, 1, 1000)
print(random_data.mean(), random_data.std())

五、性能优化技巧

1. 使用向量化操作

避免显式循环,充分利用NumPy的底层优化。例如:

# 低效
result = []
for i in range(len(data)):result.append(data[i] * 2)# 高效
result = data * 2

2. 利用NumPy的内置函数

NumPy的内置函数通常经过高度优化,例如使用np.sum()替代sum()

3. 内存管理

对于大规模数据,可使用np.memmap()创建内存映射数组,避免内存溢出。

六、总结

NumPy的统计运算功能覆盖了从基础统计量到高级数据分析的完整需求,其核心优势包括:

  • 高效的多维数组操作:支持按轴计算,满足复杂数据分析需求。
  • 丰富的统计函数:提供从基础到高级的统计量计算方法。
  • 与科学计算生态的深度集成:与scipypandas等库无缝协作。

通过掌握NumPy的统计运算功能,开发者能够显著提升数据处理与分析的效率,为后续的机器学习、数据可视化等任务奠定坚实基础。


参考文献

  • NumPy官方文档
  • 《Python数据科学手册》
  • 相关技术博客与开源项目示例

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/901319.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C语言程序环境和预处理详解

本章重点&#xff1a; 程序的翻译环境 程序的执行环境 详解&#xff1a;C语言程序的编译链接 预定义符号介绍 预处理指令 #define 宏和函数的对比 预处理操作符#和##的介绍 命令定义 预处理指令 #include 预处理指令 #undef 条件编译 程序的翻译环境和执行环…

智能工厂调度系统设计方案研究报告

一、系统架构设计 1.1 物理部署架构 设备层&#xff1a;部署大量搭载多传感器阵列的 AGV 智能循迹车&#xff0c;这些传感器包括激光雷达、视觉相机、超声波传感器等&#xff0c;用于感知周围环境信息&#xff0c;实现自主导航与避障功能&#xff1b;在每个工序节点处设置 RF…

全新突破 | 更全面 · 更安全 · 更灵活

xFile 高可用存储网关 2.0 重磅推出&#xff0c;新增多空间隔离功能从根源上防止数据冲突&#xff0c;保障各业务数据的安全性与独立性。同时支持 NFS、CIFS、FTP 等多种主流文件协议&#xff0c;无需繁琐的数据拷贝转换&#xff0c;即可与现有系统无缝对接&#xff0c;降低集成…

C# js 判断table中tr否存在相同的值

html 中如&#xff1a; 实现&#xff1a;table数据表格中&#xff0c;点击删除按钮时&#xff0c;验证相同子订单号条数是否大于1&#xff0c;大于允许删除。保证数据表格中只有唯一的一条子订单号数据。 <table style"width: 100%; background-color: #fff;" ce…

操作系统基础:07 我们的任务

课程回顾与后续规划 上节课我们探讨了操作系统的历史。了解历史能让我们明智&#xff0c;从操作系统的发展历程中&#xff0c;我们总结出两个核心的里程碑式图像&#xff1a;多进程&#xff08;多任务切换&#xff09;图像和文件操作图像 。Unix和Windows等系统的成功&#xf…

16.【.NET 8 实战--孢子记账--从单体到微服务--转向微服务】--单体转微服务--微服务的部署与运维

部署与运维是微服务架构成功实施的关键环节。一个良好的部署与运维体系能够保障微服务的高可用性、可扩展性和可靠性。在这一阶段&#xff0c;重点包括微服务的容器化与编排、API 网关的实现以及日志与监控体系的建设。 一、容器化与编排 1.1 使用 Docker 容器化微服务 容器…

MCP基础学习计划详细总结

MCP基础学习计划详细总结 1.MCP概述与基础 • MCP&#xff08;Model Context Protocol&#xff09;&#xff1a;由Anthropic公司于2024年11月推出&#xff0c;旨在实现大型语言模型&#xff08;LLM&#xff09;与外部数据源和工具的无缝集成。 • 核心功能&#xff1a; • 资…

NoSQL入门指南:Redis与MongoDB的Java实战

一、为什么需要NoSQL&#xff1f; 在传统SQL数据库中&#xff0c;数据必须严格遵循预定义的表结构&#xff0c;就像把所有物品整齐摆放在固定尺寸的货架上。而NoSQL&#xff08;Not Only SQL&#xff09;数据库则像一个灵活的储物间&#xff0c;允许存储各种类型的数据&#x…

Java 列表初始化全解析:7种方式详解与最佳实践

文章目录 **引言****1. 传统逐个添加元素****特点****注意事项** **2. Arrays.asList() 构造函数****特点****注意事项** **3. 双括号初始化&#xff08;匿名内部类&#xff09;****特点****注意事项** **4. Java 9 List.of()&#xff08;不可变列表&#xff09;****特点****注…

最大公约数和最小倍数 java

在Java中&#xff0c;计算两个数的最大公约数&#xff08;Greatest Common Divisor, GCD&#xff09;和最小公倍数&#xff08;Least Common Multiple, LCM&#xff09;是常见的编程问题。以下是具体的实现方法和代码示例。 --- ### **1. 最大公约数 (GCD)** 最大公约数是指…

数据库——视图

一、视图的定义与核心特性 1.基本概念 (1)视图(View)是基于一个或多个底层表(或视图)的虚拟表,其本身不存储数据,仅保存查询语句的定义。当用户查询视图时,数据库会动态执行其封装的SQL语句,生成结果集。 (2)本质:视图是底层表的逻辑映射,结构与表相同(由行和列…

【Proteus仿真】【32单片机-A008】MPX4115压力检测系统设计

目录 一、主要功能 二、使用步骤 三、硬件资源 四、软件设计 五、实验现象 联系作者 一、主要功能 1、压力检测与LCD显示 2、超过上限&#xff0c;降压模块启动 3、压力检测范围15kpa-115kpa 4、压力阈值设置 5、超限报警 二、使用步骤 系统运行后&#xff0c;LCD160…

java和c#的相似及区别基础对比

用过十几种语言&#xff0c;但是java和c#是最为重要的两门。c#发明人曾主导开发了pascal和delphi&#xff0c;加入微软后&#xff0c;参考了c和java完成了c#和net。大家用过java或c#任意一种的&#xff0c;可以通过本篇文章快速掌握另外一门语言。 基础语法 变量声明&#xf…

OpenBayes 一周速览|1分钟生成完整音乐,DiffRhythm人声伴奏一键搞定; Stable Virtual Camera重塑3D视频创作

公共资源速递 5 个数据集&#xff1a; * 302 例罕见病病例数据集 * DRfold2 RNA 结构测试数据集 * NaturalReasoning 自然推理数据集 * VenusMutHub 蛋白质突变小样本数据集 * Bird Vs Drone 鸟类与无人机图像分类数据集 2 个模型&#xff1a; * Qwen2.5-0mni * Llama…

PostgreSQL 实例运行状态全面检查

PostgreSQL 实例运行状态全面检查 PostgreSQL 实例的健康检查是数据库运维的核心工作&#xff0c;以下是系统化的状态检查方法和关键指标解读。 一 基础健康检查 1.1 实例可用性检查 # 快速连接测试 pg_isready -h localhost -p 5432 -U postgres -d postgres# 返回状态说明…

利用 Python 进行股票数据可视化分析

在金融市场中&#xff0c;股票数据的可视化分析对于投资者和分析师来说至关重要。通过可视化&#xff0c;我们可以更直观地观察股票价格的走势、交易量的变化以及不同股票之间的相关性等。 Python 作为一种功能强大的编程语言&#xff0c;拥有丰富的数据处理和可视化库&#xf…

时序约束高级进阶使用详解二:Set_Min_Delay

目录 一、前言 二、设计示例 2.1 示例代码 2.2 时序约束 三、Set_min_delay 3.1 start points 3.1.1 对象有效性 3.1.2 边沿有效性 3.1.3 start point非有效起点 3.2 Through points 3.2.1 约束对象为Cells 3.2.2 约束对象为Cell pin/Net 3.3 to points 3.4 rise…

2025-4-12-C++ 学习 XOR 三元组 异或 急转弯问题

C的学习必须更加精进一些&#xff0c;对于好多的函数和库的了解必须深入一些。 文章目录 3513. 不同 XOR 三元组的数目 I题解代码 3514. 不同 XOR 三元组的数目 II题解代码 晚上&#xff0c;10点半&#xff0c;参加了LC的竞赛&#xff0c;ok了一道&#xff0c;哈哈~   第二道…

图像形态学操作对比(Opencv)

形态学基于图像的形状进行操作&#xff0c;用于处理二值化图像&#xff0c;主要包括腐蚀和膨胀两种基本操作。这些操作通常用于去除噪声、分隔或连接相邻的元素以及寻找图像中显著的最大点和最小点。 1. 形态学操作 import cv2 import numpy as np import matplotlib.pyplot …

sql 向Java的映射

优化建议&#xff0c;可以在SQL中控制它的类型 在 MyBatis 中&#xff0c;如果返回值类型设置为 java.util.Map&#xff0c;默认情况下可以返回 多行多列的数据