VLLM推理大模型显存不够后,导致程序引擎崩溃的调优方案尝试

背景介绍

  • 硬件
    A800 80G
  • 模型
    chat-glm4-9b-128K
  • 环境
    生产
  • 正常显存占用情况
    glm4 占用32GB
    其他显存工占用38GB左右
    总共剩余10GB。

问题描述

推理时报错日志,由于内网环境无法拿出日志,与下面的类似。

  File "/data/miniconda3_new/envs/vllm-new/lib/python3.10/site-packages/vllm/engine/async_llm_engine.py", line 654, in add_requestself.start_background_loop()File "/data/miniconda3_new/envs/vllm-new/lib/python3.10/site-packages/vllm/engine/async_llm_engine.py", line 476, in start_background_loopraise AsyncEngineDeadError(
vllm.engine.async_llm_engine.AsyncEngineDeadError: Background loop has errored already.

再往前追述日志,发现有超长文本请求,字符长度10万左右,显存不够报类似如下错误

torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 10.78 GiB

问题分析

根本原因还是显存不够,但是一个请求推理显存不够后这个请求失败应该释放调占用的显存,不应该影响之后的请求才对。

引擎启动代码如下:

if __name__ == "__main__":MODEL_PATH = sys.argv[1]tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH, trust_remote_code=True)engine_args = AsyncEngineArgs(model=MODEL_PATH,tokenizer=MODEL_PATH,# 如果你有多张显卡,可以在这里设置成你的显卡数量tensor_parallel_size=1,dtype="bfloat16",#dtype="half",trust_remote_code=True,# 占用显存的比例,请根据你的显卡显存大小设置合适的值,例如,如果你的显卡有80G,您只想使用24G,请按照24/80=0.3设置gpu_memory_utilization=0.4,enforce_eager=True,worker_use_ray=False,disable_log_requests=True,max_model_len=MAX_MODEL_LENGTH, # 这里是128000)engine = AsyncLLMEngine.from_engine_args(engine_args)uvicorn.run(app, host='0.0.0.0', port=8000, workers=1)

引擎调用部分代码如下:

sampling_params = SamplingParams(**params_dict)
try:async for output in engine.generate(inputs=inputs, sampling_params=sampling_params, request_id=f"{time.time()}"):output_len = len(output.outputs[0].token_ids)input_len = len(output.prompt_token_ids)ret = {"text": output.outputs[0].text,"usage": {"prompt_tokens": input_len,"completion_tokens": output_len,"total_tokens": output_len + input_len},"finish_reason": output.outputs[0].finish_reason,}yield ret
except Exception as e:logger.error(f"错误:{e}")raise e
finally:gc.collect()torch.cuda.empty_cache()
  1. 引擎崩溃后每次也是这里的logger.error输出的Background loop has errored already.
  2. 第一次内存不够报错日志也是这里有显示,并且有调用finally模块中的清空缓存逻辑。
  3. 还是重复上面的问题,一个请求不应该导致整个引擎崩溃,从而导致之后的请求也无法处理,不知道是否是vllm的bug??? 看到能多人也在github上提了issue,但是目前无解决方案。参考:
    https://github.com/vllm-project/vllm/issues/6361

解决方案

经过上面的分析我们知道是显存不够引起的,我们这里只对显存不够做调优来减少这种情况发生,并不能解决显存不够后引发的引擎崩溃问题。
做如下参数调整

  • enable-chunked-prefill = True
  • max_num_batched_tokens = 8192
  • max_num_seqs = 10

参数介绍

enable-chunked-prefill

  • 是 vLLM 中的一个优化功能,主要用于处理长上下文或大提示(prompt)情况下的内存和计算效率问题。默认False

max_num_batched_tokens

预填充阶段的最大批处理token数:

  • 当 enable-chunked-prefill=True 时,决定每个chunk(块)的最大token数

  • 解码阶段的最大批处理token数:限制解码阶段同时处理的token总数

  • 工作原理
    当启用 chunked prefill 时:
    系统将长prompt分割为多个chunk
    每个chunk的token数不超过 max_num_batched_tokens
    依次处理这些chunk
    例如:
    如果prompt有5000 tokens,max_num_batched_tokens=2048
    将被分割为:2048 + 2048 + 904 tokens的三个chunk

  • 默认值
    不同的显卡,不同的内存默认值不一样
    详细逻辑见官方代码:https://github.com/vllm-project/vllm/blob/main/vllm/engine/arg_utils.py

  • 建议
    高端GPU(如A100 80GB):可设较大值(4096-8192)
    消费级GPU(如3090 24GB):建议较小值(1024-2048)

max_num_seqs
控制并发数量,如果你的显存不够是由于并发引起的,可以设置这个参数。

其他参数:

  • max_model_len : 允许模型处理的最大token数量,可根据实际情况限制,由于我们就是要处理长文本的,所以我这里没有调整。
  • gpu_memory_utilization GPU显存占比,尽量初始化时小一点,预留足够的显存空间。

总结

经测试以上参数调整后可以显著控制GPU的占用情况,减少OutOfMemory情况的发生,提高系统可用性,后续也会尝试升级VLLM版来解决崩溃后无法处理后续请求的问题,但是显存都是稀缺资源,本身也要做好调优。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/80628.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Nacos】env NACOS_AUTH_IDENTITY_KEY must be set.

【Nacos】env NACOS_AUTH_IDENTITY_KEY must be set. 问题描述 env NACOS_AUTH_IDENTITY_KEY must be set.原因分析 在 .env 文件中设置 Nacos 身份验证相关的所有必要环境变量。 解决方案 添加到 .env 文件中 NACOS_AUTH_IDENTITY_KEYAuthorization NACOS_AUTH_IDENTITY…

C++语法基础(下)

(注:在看本文是如果感觉内容有点突兀,请先浏览《C语法基础(上)》这篇文章帮助更好理解) 一.缺省参数 缺省参数是声明或定义函数时为函数的参数指定一个缺省值。在调用该函数时,如果没有指定实参…

力扣Hot100(Java版本)

1. 哈希 1.1 两数之和 题目描述: 给定一个整数数组 nums 和一个整数目标值 target,请你在该数组中找出 和为目标值 target 的那 两个 整数,并返回它们的数组下标。 你可以假设每种输入只会对应一个答案,并且你不能使用两次相同…

FCB文件疑问+求助:01 百度网盘视频自动生成AI笔记pdf会出现对应fcb文件-作用待详解

疑问求助:01 百度网盘视频自动生成AI笔记pdf会出现对应fcb文件-作用待确认确认详解.md 一、疑惑起因 百度网盘视频自动生成AI笔记pdf会出现对应fcb文件,我可以删除fcb文件么?影响什么?如何打开fcb其内容是啥?直观看删…

【数据结构】——栈和队列OJ

一、有效的括号 题目链接: 20. 有效的括号 - 力扣(LeetCode) 题目的要求很简单,就是要求我们判断其输入的括号字符串是否是有效的括号,那么我们要如何判断呢? 我们可以这样,我们遍历出传入的…

开源免费无广告专注PDF编辑、修复和管理工具 办公学术 救星工具

各位PDF处理小能手们!我跟你们说啊,今天要给大家介绍一款超牛的国产开源PDF处理工具,叫PDFPatcher,也叫PDF补丁丁。它就像一个PDF文档的超级修理工,专门解决PDF编辑、修复和管理的各种难题。 这软件的核心功能和特点&a…

【Bluedroid】蓝牙 HID DEVICE 初始化流程源码解析

本文深入剖析Android蓝牙协议栈中HID设备(BT-HD)服务的初始化与启用流程,从接口初始化、服务掩码管理、服务请求路由到属性回调通知,完整展现蓝牙HID服务激活的技术路径。通过代码逻辑梳理,揭示服务启用的核心机制&…

2025年项目管理软件革命:中国技术主权与全球创新浪潮的交锋

全球项目管理软件市场正在经历一场由多重技术叠加引发的结构性变革。根据Gartner最新预测,到2025年项目管理工具市场规模将突破220亿美元,其中中国市场增速达38%,远超全球平均水平。这场变革不仅关乎工具功能迭代,更深刻影响着企业…

计算机组成与体系结构:组相联映射(Set-Associative Mapping)

目录 🧩 映射方式问题回顾 🏗️ 组相联映射 工作流程 地址结构 ♻️ 替换策略 示例: 优点 ⚖️ 与其他映射方式对比 🧩 映射方式问题回顾 直接映射的问题: 优点:实现简单,查找速度快…

机器学习第八讲:向量/矩阵 → 数据表格的数学表达,如Excel表格转数字阵列

机器学习第八讲:向量/矩阵 → 数据表格的数学表达,如Excel表格转数字阵列 资料取自《零基础学机器学习》。 查看总目录:学习大纲 关于DeepSeek本地部署指南可以看下我之前写的文章:DeepSeek R1本地与线上满血版部署:…

基于Spring AI实现多轮对话系统架构设计

文章目录 基于Spring AI实现多轮对话系统架构设计 前言 一、多轮对话系统核心架构 1.1 架构概览 1.2 Spring AI核心优势 二、ChatClient与多轮对话设计 2.1 ChatClient的特性与角色 2.2 实现多轮对话方法 三、Advisors拦截器机制 3.1 Advisors概念与工作原理 3.2 对…

C++中的虚表和虚表指针的原理和示例

一、基本概念 1. 什么是虚函数(virtual function)? 虚函数是用 virtual 关键字修饰的成员函数,支持运行时多态(dynamic polymorphism)。通过基类指针或引用调用派生类重写的函数。 class Base { public:…

FPGA:XILINX FPGA产品线以及器件选型建议

本文将详细介绍Xilinx(现为AMD的一部分)当前的FPGA产品线及其主要特点,并提供器件选型的建议。以下内容基于Xilinx FPGA的最新信息,涵盖产品系列、特性及选型指导。由于Xilinx已被AMD收购,产品线以AMD Xilinx品牌为主&…

【C++】多线程和多进程

在C++中,多线程通信(同一进程内的线程间交互)和进程间通信(IPC,不同进程间的数据交换)是构建并发系统的核心技术。以下是两种通信机制的详细介绍和典型实现: 一、多线程通信(线程间同步与数据共享) 1. 共享内存与同步原语 通过全局变量或对象成员变量实现数据共享,…

PC Cleaner软件,它能帮助用户轻松清理和优化电脑,提升系统性能。

不用破解就能用!这款超神的电脑清理 Pro 版,绝了! 宝子们,我是你们的数码小助手蓝木云!不知道大家有没有这种感觉,电脑用久了,就像住久了没打扫的屋子,越来越 “乱”,运…

linux中fork()函数的小问题

问题描述&#xff1a;分析下列代码&#xff0c;分别能产生多少a // 1 for(int i0; i<3; i){ printf("a\n"); fork(); }// 2 for(int i0; i<3; i){ fork(); printf("a\n"); }// 3 for(int i0; i<3; i){ fork(); printf("a"); } fflus…

阿克曼-幻宇机器人系列教程2- 机器人交互实践(Topic)

在上一篇文章中&#xff0c;我们介绍了两种登录机器人的方式&#xff0c;接下来我们介绍登录机器人之后&#xff0c;我们如何通过topic操作命令实现与机器人的交互。 1. 启动 & 获取topic 在一个终端登录树莓派后&#xff0c;执行下列命令运行机器人 roslaunch huanyu_r…

51c嵌入式~电路~合集27

我自己的原文哦~ 一、7805应用电路 简介 如上图&#xff0c;7805 集成稳压电路。 7805是串联式三端稳压器&#xff0c;三个端口分别是电压输入端&#xff08;IN&#xff09;&#xff0c;地线&#xff08;GND&#xff09;&#xff0c;稳压输出&#xff08;OUT&#xff09;…

Vitrualbox完美显示系统界面(只需三步)

目录 1.使用vitrualbox的增强功能&#xff1a;​编辑 2.安装增强功能&#xff08;安装完后要重启虚拟机&#xff09;&#xff1a; 3. 调整界面尺寸&#xff08;如果一个选项不行的话&#xff0c;就多试试其他不同的百分比&#xff09;&#xff1a; 先看看原来的&#xff0c;…

2025年第十六届蓝桥杯软件赛省赛C/C++大学A组个人解题

文章目录 题目A题目C&#xff1a;抽奖题目D&#xff1a;红黑树题目E&#xff1a;黑客题目F&#xff1a;好串的数目 https://www.dotcpp.com/oj/train/1166/ 题目A 找到第2025个素数 #include <iostream> #include <vector> using namespace std; vector<i…