【神经网络与深度学习】两种加载 pickle 文件方式(joblib、pickle)的差异

引言

从深度学习应用到数据分析的多元化需求出发,Python 提供了丰富的工具和模块,其中 picklejoblib 两种方式在加载数据文件方面表现尤为突出。不同场景对性能、兼容性以及后续处理的要求不尽相同,使得这两种方式各显优势。本文将通过深入分析和对比,从技术细节出发,揭示两种加载方式的异同,同时解读文件扩展名的选择背后的逻辑。希望为开发者在实际应用中提供切实可行的参考依据。

下面为你详细分析这两种加载 pickle 文件方式的差异,以及文件扩展名不同的原因。

两种加载 pickle 文件方式的差异

1. 第一种方式(使用 joblib
with open(config['dataset']['Gene_embedding'], 'rb') as fin:Gene_embeddings = joblib.load(fin)
self.Gene_embeddings = torch.tensor(Gene_embeddings)
  • 使用的库:借助 joblib 库来加载 pickle 文件。joblib 是一个用于在 Python 里进行轻量级流水线作业的库,它对 pickle 模块进行了优化,在处理大型 NumPy 数组和 SciPy 稀疏矩阵时,比原生的 pickle 模块更高效。
  • 后续处理:将加载的数据转换为 PyTorch 张量,这表明加载的数据可能是用于深度学习模型的数值数据,例如基因嵌入向量。
2. 第二种方式(使用 pickle
embd_path = './data/XX.pickle'
with open(embd_path, 'rb') as f:embd = pd.DataFrame(pickle.load(f)).T
  • 使用的库:运用 Python 内置的 pickle 模块来加载 pickle 文件。pickle 模块能够将 Python 对象序列化为字节流,也能将字节流反序列化为 Python 对象。
  • 后续处理:把加载的数据转换为 Pandas 的 DataFrame 并进行转置操作,这意味着加载的数据可能是表格形式的数据,例如基因嵌入的特征矩阵。

文件扩展名不同的原因

在 Python 里,文件扩展名本身并不会影响 picklejoblib 对文件的加载。.pickle.pkl 这两种扩展名都可用于表示 pickle 文件,它们只是一种约定俗成的命名方式。

  • .pickle:这种扩展名更具描述性,清晰地表明文件是使用 pickle 模块序列化的。
  • .pkl:这是一种更为简洁的命名方式,在很多 Python 项目中被广泛使用,大家也都默认它表示的是 pickle 文件。

总结来说,两种加载方式的主要区别在于使用的库和后续的数据处理步骤,而文件扩展名的不同仅仅是命名习惯的差异。

除了前面提到的使用库和后续处理的差异外,两种处理方式在多个方面还存在不同,下面为你详细分析:

1. 性能表现

  • joblib 方式
    • joblib 在处理大型的 NumPy 数组和 SciPy 稀疏矩阵时具有显著的性能优势。它采用了更高效的序列化和反序列化算法,并且能够利用多线程进行数据处理,因此在加载包含大量数值数据的文件时,速度会比 pickle 更快。
    • 例如,在处理基因嵌入数据时,如果数据以 NumPy 数组的形式存储,使用 joblib 可以减少加载时间,提高程序的运行效率。
  • pickle 方式
    • Python 内置的 pickle 模块在处理简单的 Python 对象(如列表、字典等)时表现良好,但对于大型的数值数据,它的性能相对较差。因为 pickle 在序列化和反序列化过程中可能会产生更多的开销。

2. 兼容性和安全性

  • joblib 方式
    • joblib 主要是为了优化数值计算而设计的,它的兼容性主要集中在与 NumPy 和 SciPy 相关的数据类型上。如果数据包含其他复杂的 Python 对象,可能会出现兼容性问题。
    • 在安全性方面,joblib 同样依赖于 pickle 的序列化机制,因此也存在一定的安全风险,尤其是在加载来自不可信源的文件时。
  • pickle 方式
    • pickle 模块可以处理几乎所有的 Python 对象,具有很好的兼容性。但由于它可以执行任意代码(在反序列化过程中),所以存在安全隐患。如果加载的 pickle 文件来自不可信的源,可能会导致代码注入攻击。

3. 后续处理的灵活性

  • joblib 方式
    • 加载的数据通常是原始的 Python 对象,在这个例子中是后续转换为 PyTorch 张量。这种方式更适合直接用于深度学习模型的训练和推理,因为 PyTorch 可以直接处理张量数据。
  • pickle 方式
    • 将加载的数据转换为 Pandas 的 DataFrame 并进行转置操作,这使得数据更适合进行数据分析和可视化。Pandas 提供了丰富的数据处理和分析工具,可以方便地对数据进行筛选、聚合等操作。

4. 代码简洁性和可读性

  • joblib 方式
    • 代码相对简洁,只需要使用 joblib.load 函数即可完成文件的加载。对于熟悉深度学习和数值计算的开发者来说,这种方式更符合他们的编程习惯。
  • pickle 方式
    • 代码稍显复杂,需要使用 Python 内置的 open 函数打开文件,然后使用 pickle.load 函数加载数据。但这种方式更直观地展示了文件打开和数据加载的过程,对于初学者来说更容易理解。

综上所述,两种处理方式各有优缺点,具体选择哪种方式取决于数据的类型、后续处理的需求以及性能和安全性的考虑。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/79274.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Electron 入门指南

Electron 入门指南 Electron 是一个使用 JavaScript、HTML 和 CSS 构建跨平台桌面应用的框架。通过 Electron,你可以利用 Web 技术开发出功能强大的桌面应用程序,并且能够运行在 Windows、Mac 和 Linux 系统上。 本文将带你从零开始构建一个简单的 Ele…

编程中如何与AI交互-结构化输入和理解确认机制

一 结构化输入是什么 📌 结构化输入的定义: 结构化输入是指以清晰、分层、有逻辑的格式向 AI 输入信息,使其更容易解析内容、抓住重点,并准确回答问题。 📦 举个例子(编程场景): 非…

13:傅里叶变换

傅立叶变换(FT, Fourier Transform)的作用是将一个信号由时域变换到频域。其实就是把数据由横坐标时间、纵坐标采样值的波形图格式,转换为横坐标频率、纵坐标振幅(或相位)的频谱格式。换后可以很明显地看出一些原先不易察觉的特征。 有些信号在时域上是很难看出什么…

基于单片机的音频信号处理系统设计(一)

项目名称:基于单片机的音频信号处理系统设计学院名称:信息学院学生姓名:学号专业年级:指导教师:教师职称:教授企业导师:目 录 摘 要 Abstract 1 前言 1.1研究背景与意义 <

机器学习实操 第一部分 机器学习基础 第8章 降维技术

机器学习实操 第一部分 机器学习基础 第8章 降维技术 内容概要 第8章探讨了降维技术&#xff0c;这些技术在处理高维数据时至关重要。高维数据不仅会使训练过程变得极其缓慢&#xff0c;还会增加找到良好解决方案的难度&#xff0c;这就是所谓的维度灾难问题。幸运的是&#…

微信小程序 XSS 防护知识整理

场景1&#xff1a;用户输入表单&#xff08;如评论框&#xff09; 错误做法&#xff1a;直接渲染未过滤的用户输入 // WXML <view>{{ userInput }}</view>// JS&#xff08;用户输入了恶意内容&#xff09; Page({data: { userInput: <script>alert("…

MySQL 服务搭建

&#x1f4a2;欢迎来到张翊尘的开源技术站 &#x1f4a5;开源如江河&#xff0c;汇聚众志成。代码似星辰&#xff0c;照亮行征程。开源精神长&#xff0c;传承永不忘。携手共前行&#xff0c;未来更辉煌&#x1f4a5; 文章目录 在线安装Ubuntu/Debian更新系统包索引安装 MySQL …

【Java面试笔记:进阶】23.请介绍类加载过程,什么是双亲委派模型?

Java的类加载机制是JVM的核心组成部分,其过程分为三个阶段,并采用双亲委派模型来保证类加载的安全性和一致性。 1.类加载过程 1.加载阶段(Loading) 核心任务:查找并加载类的二进制字节流(如.class文件)。具体行为: 将字节码数据从不同数据源(如文件系统、网络等)读…

UN R79 关于车辆转向装置形式认证的统一规定(正文部分1)

UN R79法规是针对转向装置的型式认证法规&#xff0c;涉及A/B1/C类的横向控制辅助驾驶功能&#xff0c;对各功能的功能边界、性能要求、状态提示、故障警示以及型式认证要提交的信息做了规范&#xff0c;本文结合百度文心一言对法规进行翻译&#xff0c;并结合个人理解对部分内…

[随笔] 升级uniapp旧项目的vue、pinia、vite、dcloudio依赖包等

汇总 # 升级uniapp项目dcloudio整体依赖&#xff0c;建议执行多次 # 会顺带自动更新/升级vue的版本 npx dcloudio/uvmlatest alpha# 检查 pinia 的最新版本 npm view pinia version# 更新项目 pinia 到最新版本 npm update pinia# 更新项目 pinia 到特定的版本 # 首先&#xf…

【使用小皮面板 + WordPress 搭建本地网站教程】

&#x1f680; 使用小皮面板 WordPress 搭建本地网站教程&#xff08;快速上手&#xff09; 本教程将手把手教你如何使用 小皮面板&#xff08;XAMPP 类似工具&#xff09; 和 WordPress 搭建一个完全本地化的网站环境。适合 初学者 / 博主 / Web开发者 本地练习使用&#xf…

[更新完毕]2025五一杯A题五一杯数学建模思路代码文章教学:支路车流量推测问题

完整内容请看文章最下面的推广群 支路车流量推测问题 摘要 本文针对支路车流量推测问题展开研究&#xff0c;通过建立数学模型解决不同场景下的车流量分析需求。 针对问题一&#xff08;Y型道路场景&#xff09;&#xff0c;研究两支路汇入主路的车流量推测。通过建立线性增长…

前端面试宝典---webpack原理解析,并有简化版源码

前言 先看一下webpack打包后的bundle.js&#xff0c;前边的直接扫一眼就过&#xff0c;可以发现这个立即执行函数的形参就是一个&#xff0c;key为引入文件路径&#xff0c;value为该模块代码的函数。 所以比较重要的就是通过webpack的配置文件中的entry的入口文件&#xff0c…

面试的各种类型

面试是用人单位选拔人才的重要环节&#xff0c;常见的面试类型有结构化面试、半结构化面试、非结构化面试和压力面试&#xff0c;每种类型都有其特点和应对策略。 一、结构化面试 特点&#xff1a; 标准化流程 面试流程固定&#xff0c;考官会按照预先设计好的问题清单依次向…

vue3定义全局防抖指令

文章目录 代码参数讲解 在写项目时&#xff0c;总会有要进行防抖节流的时候&#xff0c;如果写一个debounce函数的话 用起来代码总会是有点长的&#xff0c;因此想到了用一个全局指令进行输入框的防抖&#xff0c;毕竟全局指令使用时只要v-xxx就行了&#xff0c;非常方便 代码…

WebDeveloper 流量分析、sudo提权,靶场通关WP

一、信息收集 1、主机探测 arp-scan -l netdiscover -i eth0 -r 192.168.33.0/24 nmap -sP 192.168.66.0/24 2、端口扫描 nmap -sS -sV 192.168.66.141 PORT STATE SERVICE VERSION 22/tcp open ssh OpenSSH 7.6p1 Ubuntu 4 (Ubuntu Linux; protocol 2.0) 80/tcp op…

某化工厂运维升级:智和信通运维平台实现工业交换机智能管理

随着某化工厂数字化转型的加速推进&#xff0c;其生产过程对复杂网络和IT设备的依赖程度日益加深。当前的网络不仅承载着生产控制系统&#xff08;如DCS、PLC等&#xff09;的通信需求&#xff0c;还同时支持办公自动化、安防监控、工业物联网&#xff08;IoT&#xff09;等多种…

React:封装一个编辑文章的组件

封装一个编辑文章的组件,就要用到富文本编辑器,支持标题、内容、标签等的编辑,并且能够保存和取消。 首先,我需要考虑用户的具体需求。编辑文章组件通常需要哪些功能?标题输入、内容编辑、标签管理、保存和取消按钮。可能还需要自动保存草稿、验证输入、错误提示等功能。用…

数据结构与算法:图论——并查集

先给出并查集的模板&#xff0c;还有一些leetcode算法题&#xff0c;以后遇见了相关题目再往上增加 并查集模板 整体模板C代码如下&#xff1a; 空间复杂度&#xff1a; O(n) &#xff0c;申请一个father数组。 时间复杂度 路径压缩后的并查集时间复杂度在O(logn)与O(1)之间…

精品推荐-湖仓一体电商数据分析平台实践教程合集(视频教程+设计文档+完整项目代码)

精品推荐&#xff0c;湖仓一体电商数据分析平台实践教程合集&#xff0c;包含视频教程、设计文档及完整项目代码等资料&#xff0c;供大家学习。 1、项目背景介绍及项目架构 2、项目使用技术版本及组件搭建 3、项目数据种类与采集 4、实时业务统计指标分析一——ODS分层设计与…