Python生成器:高效处理大数据的秘密武器

生成器概述

生成器是 Python 中的一种特殊迭代器,通过普通函数的语法实现,但使用 yield 语句返回数据。生成器自动实现了 __iter__()__next__() 方法,因此可以直接用于迭代。生成器的核心特点是延迟计算(lazy evaluation),即只在需要时生成下一个值,而不是一次性计算并存储所有值。

生成器的作用与优势

作用:

  • 节省内存空间
  • 按需生成数据项
  • 支持无限序列生成
  • 简化复杂迭代逻辑的代码

优势:

  • 内存效率高,适用于大数据集
  • 可以创建惰性求值的数据流
  • 代码结构更加简洁易读

生成器的使用场景

场景描述
处理大数据集当数据量非常大以至于无法全部加载到内存中时,生成器可以逐个生成数据项
创建无限序列如自然数列、斐波那契数列等理论上没有终点的数据流
简化代码结构在某些情况下,使用生成器可以让代码更加简洁、易维护

生成器表达式 vs 列表推导式

类型语法是否立即执行示例特点
列表推导式使用方括号 []✅ 是[i * 5 for i in range(5)]立即计算结果并保存在内存中
生成器表达式使用圆括号 ()❌ 否(i * 5 for i in range(5))延迟计算,每次迭代才会生成一个值

示例代码:

li = [i * 5 for i in range(5)]
print(li)  # 输出: [0, 5, 10, 15, 20]gen = (i * 5 for i in range(5))
print(gen)  # 输出: <generator object ...>
print(gen.__next__())  # 输出: 0

生成器函数:yield 的作用

带有 yield 关键字的函数称为生成器函数。它不像普通函数那样返回一个值后就结束,而是可以在多个调用之间“暂停”和“恢复”。类似于中断函数。

yield 的特点:

  • 每次调用 next() 会从上次 yield 的位置继续执行
  • 保留函数的状态
  • 返回值不会被一次性计算出来,而是按需生成

示例代码:

def test():yield 'a'yield 'b'yield 'c'gen = test()
print(gen.__next__())  # 输出: a
print(gen.__next__())  # 输出: b
print(gen.__next__())  # 输出: c

可迭代对象、迭代器、生成器三者关系

名称定义特点
可迭代对象(Iterable)实现了 __iter__() 方法的对象可以用 for...in 遍历,如 liststrdict、迭代器、生成器
迭代器(Iterator)实现了 __next__() 方法的对象可以使用 next() 获取下一个元素
生成器(Generator)一种特殊的迭代器,由 yield 函数或生成器表达式产生自动实现 __iter__()__next__()

三者关系图示:

  • 可迭代对象包含迭代器迭代器包含生成器
可迭代对象 ⊃ 迭代器 ⊃ 生成器

实战对比:列表 vs 生成器处理大数据

比较两种方式处理一千万个数字(0~9999999),并对每个数字进行平方操作。

使用模块:

  • time:用于计时
  • sys:用于查看内存占用

代码如下:

import time
import sys# 方法一:使用列表
def use_list():start_time = time.time()numbers = [i for i in range(10_000_000)]  # 生成列表squares = [x * x for x in numbers]         # 计算平方end_time = time.time()print(f"【列表】耗时: {end_time - start_time:.4f} 秒")print(f"【列表】占用内存: {sys.getsizeof(numbers) + sys.getsizeof(squares)} 字节")# 方法二:使用生成器
def number_generator(n):for i in range(n):yield idef use_generator():start_time = time.time()gen = number_generator(10_000_000)squares = (x * x for x in gen)  # 生成器表达式,不会立即计算count = 0for square in squares:count += 1  # 强制执行生成器end_time = time.time()print(f"【生成器】耗时: {end_time - start_time:.4f} 秒")print(f"【生成器】生成器对象本身占用内存: {sys.getsizeof(gen)} 字节")# 运行测试
print("=== 开始测试 ===\n")
use_list()
print("\n------------------------\n")
use_generator()
print("\n=== 测试结束 ===")

结果分析(根据机器性能不同,数值可能略有差异):

指标列表方式生成器方式
内存占用非常大(约 184MB)极小(约 112B)
耗时略快略慢
是否适合大数据❌ 不适合✅ 非常适合

总结

生成器是一种强大而高效的工具,特别适用于:

  • 数据量庞大的场景
  • 需要延迟加载的场景
  • 需要节省内存的场景
  • 需要简化复杂迭代逻辑的场景

虽然生成器在速度上略逊于列表,但它在内存使用上的优势使其成为处理大规模数据的首选方式。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/83270.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Flask框架入门与实践

Flask框架入门与实践 Flask是一个轻量级的Python Web框架&#xff0c;以其简洁、灵活和易于上手的特点深受开发者喜爱。本文将带您深入了解Flask的核心概念、基本用法以及实际应用。 什么是Flask&#xff1f; Flask是由Armin Ronacher于2010年开发的微型Web框架。与Django等…

数学复习笔记 14

前言 和家里人交流了一下&#xff0c;他们还是希望我全力以赴初试&#xff0c;我确实也得放开了干&#xff0c;不要束手束脚的。好好加油。感觉公共课都没有啥压力&#xff0c;主要是专业课要好好加油&#xff0c;真不能过不了线&#xff0c;要是过不了线&#xff0c;啥都白搭…

金格iWebOffice控件在新版谷歌Chrome中不能加载了怎么办?

金格iWebOffice控件是由江西金格网络科技有限责任公司开发的中间件软件&#xff0c;主要用于在浏览器中直接编辑Word、Excel、PowerPoint等Office文档&#xff0c;曾经是一款优秀国产的WebOffice插件。 由于2022年Chrome等浏览器取消支持PPAPI接口&#xff0c;导致这款金格iWe…

ChatGPT 能“记住上文”的原因

原因如下 你把对话历史传给了它 每次调用 OpenAI 接口时&#xff0c;都会把之前的对话作为参数传入&#xff08;messages 列表&#xff09;&#xff0c;模型“看见”了之前你说了什么。 它没有长期记忆 它不会自动记住你是谁或你说过什么&#xff0c;除非你手动保存历史并再次…

微信小程序van-dialog确认验证失败时阻止对话框的关闭

使用官方(Vant Weapp - 轻量、可靠的小程序 UI 组件库)的before-close&#xff1a; wxml&#xff1a; <van-dialog use-slot title"名称" show"{{ show }}" show-cancel-button bind:cancel"onClose" bind:confirm"getBackInfo"…

K8S Ingress、IngressController 快速开始

假设有如下三个节点的 K8S 集群&#xff1a; ​ k8s31master 是控制节点 k8s31node1、k8s31node2 是工作节点 容器运行时是 containerd 一、理论介绍 1&#xff09;什么是 Ingress 定义&#xff1a;Ingress 是 Kubernetes 中的一种资源对象&#xff0c;它定义了外部访问集群内…

Vue3 + Element Plus 动态表单实现

完整代码 <template><div class"dynamic-form-container"><el-formref"dynamicFormRef":model"formData":rules"formRules"label-width"auto"label-position"top"v-loading"loading"&g…

Mac修改hosts文件方法

Mac修改hosts文件方法 在 macOS 上修改 hosts 文件需要管理员权限 步骤 1&#xff1a;打开终端 通过 Spotlight 搜索&#xff08;Command 空格&#xff09;输入 Terminal&#xff0c;回车打开。或进入 应用程序 > 实用工具 > 终端。 步骤 2&#xff1a;备份 hosts 文件…

深度学习—BP神经网络

文章目录 [TOC](文章目录) 一、基本概念二、 网络结构三、BP神经网络的原理总结特点&#xff1a;应用场景优缺点 一、基本概念 BP 神经网络&#xff08;Backpropagation Neural Network&#xff09;是一种基于误差反向传播算法的多层前馈神经网络&#xff0c;由输入层、隐藏层…

Spring AI(6)——向量存储

向量数据库是一种特殊类型的数据库&#xff0c;在 AI 应用中发挥着至关重要的作用。 在向量数据库中&#xff0c;查询与传统关系型数据库不同。它们执行的是相似性搜索&#xff0c;而非精确匹配。当给定一个向量作为查询时&#xff0c;向量数据库会返回与该查询向量“相似”的…

Qt功能区:简介与安装

Qt功能区 1. 功能区简介2. SARibbon2.1 简介2.2 编译与安装采用CMake-gui进行编译采用VS进行编译安装与使用 Qt 官方不支持 Ribbon 风格&#xff08;Ribbon UI 风格是微软开创的&#xff0c;具有专利许可协议&#xff0c;许可协议对从构建 UI 的指令到每个按钮间的空格数都做了…

iOS safari和android chrome开启网页调试与检查器的方法

手机开启远程调试教程&#xff08;适用于 Chrome / Safari&#xff09; 前端移动端调试指南&#xff5c;适用 iPhone 和 Android&#xff5c;WebDebugX 出品 本教程将详细介绍如何在 iPhone 和 Android 手机上开启网页检查器&#xff0c;配合 WebDebugX 实现远程调试。教程包含…

Golang企业级商城高并发微服务实战

Golang企业级商城高并发微服务实战包含内容介绍&#xff1a; 从零开始讲了百万级单体高并发架构、千万级微服务架构&#xff0c;其中包含Rpc实现微服务、微服务的跨语言调用jsonrpc和protobuf、protobuf的安装、protobuf高级语法、protobuf结合Grpc实现微服务实战、微服务服务…

实现可靠的 WebSocket 连接:心跳与自动重连的最佳实践

概览 本文将手把手教你如何从零编写一个可用于直播或在线聊天的 WSocket 类&#xff0c;依次实现连接建立、心跳检测、断线重连、消息收发以及资源清理等功能。我们将结合 WebSocket API 的标准用法、心跳保持 和 重连策略&#xff0c;并充分运用现代 JavaScript 语法&#xf…

UEFI Spec 学习笔记---33 - Human Interface Infrastructure Overview(1)

33 - Human Interface Infrastructure Overview 本章节主要用于介绍Human Interface Infrastructure&#xff08;HII&#xff09;架构介绍&#xff0c;描述如何通过 HII 来管理用户的输入&#xff0c;以及描述在 UEFI spec 中涉及 HII 相关的 Protocol、function 和类型定义。…

ip命令详解

控制网卡的硬件状态 ip link set ens36 down ip link set ens36 up 修改网卡名称&#xff08;临时&#xff09; ip link set ens36 down ip link set ens36 name xxx 修改网卡的mac地址 ip link set ens36 down ip link set xxx name ens36 查看ip的addr ip addr show ip ad…

hadoop中了解yarm

Hadoop中的YARN&#xff08;Yet Another Resource Negotiator&#xff09;是一种新的Hadoop资源管理器&#xff0c;是一个通用资源管理系统&#xff0c;可为上层应用提供统一的资源管理和调度。以下是其相关介绍&#xff1a; 核心思想 将JobTracker的资源管理和作业调度/监控功…

做好的QT软件,换一个笔记本打开后发现字体很小,部分字体还被控件遮挡

出现这种情况的原因主要是屏幕的DPI&#xff08;每英寸点数&#xff09;不同。Qt中控件的大小单位为像素&#xff0c;在高DPI下&#xff0c;控件会变小&#xff0c;低DPI下控件会变大。而Qt中字体的单位默认为磅&#xff0c;无论在什么显示器上显示同一磅值的字体&#xff0c;其…

linux - 权限的概念

目录 用户权限 超级用户与普通用户的区别 超级用户&#xff08;root&#xff09;&#xff1a; 普通用户&#xff1a; 切换用户身份 使用sudo执行高权限命令 用户管理 用户组管理 文件权限 文件访问者类别 基本权限 权限表示方法 权限修改 chmod chown chgrp u…

Python函数返回值的艺术:为何True/False是更优实践及例外情况分析

在Python编程实践中&#xff0c;子程序的返回值设计往往是一个容易被忽视但却至关重要的设计决策。本文将深入探讨为什么返回True/False往往是更好的选择&#xff0c;何时应该避免这种做法&#xff0c;以及如何处理与None值相关的问题。 为什么返回True/False是更好的实践&…