在24GB显存大小的GPU上运行27GB的Pytorch模型

在24GB显存大小的GPU上运行27GB的Pytorch模型

    • 一.背景:显存不足时的破局之道
      • 1.1 大模型时代的显存困境
      • 1.2 CUDA统一内存的魔法
    • 二.性能测试数据深度解读
      • 关键发现:
    • 三.复现过程
      • 3.1 准备自定义分配器
      • 3.2 准备测试程序
      • 3.3 执行流程
      • 3.4 开始测试
    • 四.原理深度剖析
      • 4.1 统一内存的工作机制
      • 4.2 性能差异的本质

一.背景:显存不足时的破局之道

1.1 大模型时代的显存困境

当使用像Qwen3-14B这样的千亿参数大模型时,模型权重加载后通常需要超过24GB的显存。这给普通消费级显卡用户带来了巨大挑战。传统解决方案包括:

  • 模型量化(牺牲精度)
  • 梯度累积(延长训练时间)
  • 多卡并行(增加硬件成本)

1.2 CUDA统一内存的魔法

PyTorch通过CUDA统一内存(Unified Memory)技术实现了突破。其核心是cudaMallocManaged函数,该函数会:

  1. 创建在CPU和GPU之间自动迁移的内存空间
  2. 当GPU访问数据时,自动将所需内存页迁移到显存
  3. 当显存不足时,自动将不活跃页换出到内存

二.性能测试数据深度解读

我们通过三组实验对比不同内存策略(测试环境:RTX 4090 24GB + 64GB DDR4)

配置模式显存占用TPS(Token/秒)关键技术解析
基础统一内存20584 MB1.75完全依赖自动内存迁移
强制驻留内存744 MB0.90数据常驻内存,显存仅作缓存
优化读取模式20622 MB1.77声明数据可多设备共享读取

关键发现:

  1. 显存换速度:当强制数据驻留内存(模式2)时,虽然显存占用骤降97%,但推理速度下降48%
  2. 智能预取优势:默认统一内存(模式1)通过智能页迁移,在有限显存下仍保持较高性能
  3. 读优化增益:设置SetReadMostly后(模式3),允许GPU缓存只读数据,TPS提升1%

三.复现过程

3.1 准备自定义分配器

cat > allocater.cc <<-'EOF'
#include <sys/types.h>
#include <cuda_runtime_api.h>
#include <iostream>
#include <assert.h>
#include <unordered_map>
#include <iostream>
#include <mutex>
#include <stdlib.h>
#include <unistd.h>class UserCudaAllocater {
public:void* allocate(size_t size) {void* ptr;int mode=0;char *env=getenv("ALLOC_MODE");if(env){mode=atoi(env);}if(mode>0){assert(0==cudaMallocManaged(&ptr,size));// 核心:申请统一内存if(mode>1){// 建议数据首选位置在CPU(减少显存占用)assert(0==cudaMemAdvise(ptr, size, cudaMemAdviseSetPreferredLocation, cudaCpuDeviceId));}if(mode>2){// 声明数据将被多设备频繁读取(提升缓存效率)assert(0==cudaMemAdvise(ptr, size, cudaMemAdviseSetReadMostly, 0));}}else{assert(0==cudaMalloc(&ptr,size)); // 传统显存分配}return ptr;}void deallocate(void* ptr) {if (ptr) {assert

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/81335.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot 参数验证

一、依赖配置 首先确保在 pom.xml 中添加了以下依赖&#xff1a; <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-validation</artifactId> </dependency> 这个依赖包含了 Hibernate Valida…

SHAP分析!Transformer-GRU组合模型SHAP分析,模型可解释不在发愁!

SHAP分析&#xff01;Transformer-GRU组合模型SHAP分析&#xff0c;模型可解释不在发愁&#xff01; 目录 SHAP分析&#xff01;Transformer-GRU组合模型SHAP分析&#xff0c;模型可解释不在发愁&#xff01;效果一览基本介绍程序设计参考资料 效果一览 基本介绍 基于SHAP分析…

在微创手术中使用Kinova轻型机械臂进行多视图图像采集和3D重建

在微创手术中&#xff0c;Kinova轻型机械臂通过其灵活的运动控制和高精度的操作能力&#xff0c;支持多视图图像采集和3D重建。这种技术通过机械臂搭载的光学系统实现精准的多角度扫描&#xff0c;为医疗团队提供清晰且详细的解剖结构模型。其核心在于结合先进的传感器配置与重…

Qt事件循环机制

受事件循环机制影响&#xff0c;按钮的样式表改变了可能不会立即刷新。 需要使用 update() 或 repaint() 或者调用 QApplication::processEvents() 强制处理所有待处理的事件&#xff0c;从而确保界面更新。 在 Qt 中&#xff0c;事件循环&#xff08;Event Loop&#xff09;是…

Leaflet 自定义瓦片地图与 PHP 大图切图算法 解决大图没办法在浏览器显示的问题

为什么使用leaflet 使用 Leaflet 来加载大图片&#xff08;尤其是通过瓦片化的方式&#xff09;是一种高效的解决方案&#xff0c;主要原因如下&#xff1a; 1. 性能优化 减少内存占用&#xff1a;直接加载大图片会占用大量内存&#xff0c;可能导致浏览器崩溃或性能下降。瓦片…

一种应用非常广泛的开源RTOS(实时操作系统):nuttx

什么是NuttX&#xff1f; NuttX&#xff08;读音接近“纳特-艾克斯”&#xff09;是一种应用非常广泛的开源RTOS&#xff08;实时操作系统&#xff09;&#xff0c;由Gregory Nutt博士主要推动开发。RTOS&#xff0c;即 Real-Time Operating System&#xff0c;直译为“实时操…

Python中plotext 库详细使用(命令行界面中直接绘制各种图形)

更多内容请见: python3案例和总结-专栏介绍和目录 文章目录 plotext概述1.1 plotext介绍1.2 安装二、基本用法2.1 简单绘图2.2 散点图2.3 折线图2.4 条形图2.5 直方图2.6 标题和坐标轴标签2.7 网格和坐标轴2.8 颜色和样式2.9 多图叠加三、高级功能3.1 多图绘制3.2 对数坐标3.3…

使用 ESP32 驱动 ±12V 压电无源蜂鸣器(NPN 三极管 + PWM 控制驱动电路)

&#x1f50a; 使用 ESP32 驱动 12V 压电无源蜂鸣器&#xff08;NPN 三极管 PWM 控制驱动电路&#xff09; 本教程将介绍如何使用 ESP32 控制一个额定工作电压为 12V 的压电无源蜂鸣器&#xff0c;通过 NPN 三极管 PWM 信号实现音量更大的驱动方案。 &#x1f9e0; 教程目标…

python调用金蝶api接口

金蝶接口 登录接口 https://xxx.xxx.com/k3cloud/Kingdee.BOS.WebApi.ServicesStub.AuthService.ValidateUser.common.kdsvc 查询单据接口 https://xxx.xxx.com/K3Cloud/Kingdee.BOS.WebApi.ServicesStub.DynamicFormService.ExecuteBillQuery.common.kdsvc 基础资料保存接口、…

12 web 自动化之基于关键字+数据驱动-反射自动化框架搭建

文章目录 一、如何实现一条用例&#xff0c;实现覆盖所有用例的测试1、结合数据驱动&#xff1a;编辑一条用例&#xff0c;外部导入数据实现循环测试2、用例体&#xff1a;实现不同用例的操作步骤对应的断言 二、实战1、项目路径总览2、common 文件夹下的代码文件3、keywords 文…

Ubuntu shell指定conda的python环境启动脚本

Ubuntu shell指定conda的python环境启动脚本。 通过指令&#xff0c;获取目前系统的conda虚拟python环境 conda info -e 如下图所示&#xff0c;为我自己电脑的python环境 # conda environments: # base * /home/ubuntu/miniconda3 kitti …

博客系统技术需求文档(基于 Flask)

以下内容是AI基于要求生成的技术文档&#xff0c;仅供参考~ &#x1f9f1; 一、系统架构设计概览 层级 内容 前端层 HTML Jinja2 模板引擎&#xff0c;集成 Markdown 编辑器、代码高亮 后端层 Flask 框架&#xff0c;RESTful 风格&#xff0c;Jinja2 渲染 数据库 SQLi…

【Linux 学习计划】-- 权限

目录 权限是什么 权限的本质 权限&#xff08;用户&#xff09;的修改 权限的匹配机制 目录的权限 初始权限&#xff08;文件和目录&#xff09; 粘滞位 结语 权限是什么 在现实世界中就有权限的概念&#xff0c;也就是&#xff0c;一部分人能做但是其他没有相关身份的…

okcc呼叫中心系统搭建的方案方式

传统企业呼叫中心多采用 PC和手机软件&#xff0c;很难与客户保持良好的沟通。因此&#xff0c;需要建设一套呼叫中心系统来实现与客户实时有效沟通。那么&#xff0c;呼叫中心搭建的方案方式有哪些呢?下面详细介绍一下。 呼叫中心系统的搭建方式需根据企业规模、预算和业务需…

前端最新面试题及答案 (2025)

前端最新面试题及答案 (2025) JavaScript 核心 1. ES6+ 新特性 问题: 请解释 ES6 中 let/const 与 var 的区别,以及箭头函数的特点。 答案: let/const vs var: 作用域: let/const 是块级作用域,var 是函数作用域 变量提升: var会提升变量,let/const不会(有暂时性死区) 重…

传统轮椅逆袭!RDK + 激光雷达如何重塑出行体验?

为满足特殊群体智能化出行需求&#xff0c;攻克传统轮椅技术短板&#xff0c;本项目研发了一款智能轮椅。该轮椅借助摄像头与激光雷达&#xff0c;精准感知环境、检测障碍物&#xff1b;融合激光 SLAM 技术和互联网地图&#xff0c;实现室内外无缝导航与自主避障&#xff1b;提…

go-中间件的使用

中间件介绍 Gin框架允许开发者在处理请求的过程中加入用户自己的钩子(Hook)函数这个钩子函数就是中间件&#xff0c;中间件适合处理一些公共的业务逻辑比如登录认证&#xff0c;权限校验&#xff0c;数据分页&#xff0c;记录日志&#xff0c;耗时统计 1.定义全局中间件 pac…

【Linux】动静态库链接原理

&#x1f4dd;前言&#xff1a; 这篇文章我们来讲讲Linux——动静态库链接原理 &#x1f3ac;个人简介&#xff1a;努力学习ing &#x1f4cb;个人专栏&#xff1a;Linux &#x1f380;CSDN主页 愚润求学 &#x1f304;其他专栏&#xff1a;C学习笔记&#xff0c;C语言入门基础…

第八节第三部分:认识枚举、枚举的作用和应用场景

认识枚举 枚举的概述 枚举的特点 枚举的应用场景 代码&#xff1a; 代码一&#xff1a;认识枚举 A&#xff08;枚举&#xff09; package com.d6_enum;public enum A {//注意&#xff1a;枚举类的第一行必须罗列的是枚举对象的名字X,Y,Z;private String name;public String…

Android framework 中间件开发(二)

上篇文章中我们讲述了怎么去开发中间件 Android framework 中间件开发(一) 这篇我们讲一下怎么打包中间件给外部应用使用 目录 1.新建项目 2.编写jar包代码 3.打包jar包 4.使用jar包 我们可以直接将系统编译出来的framework的jar包拿出来直接用,但是为了安全起见,防止用户调用…