普通用户的服务器连接与模型部署相关记录

普通用户的服务器连接与模型部署相关记录

一、从登录到使用自己的conda

1.账号登陆

ssh xxx@172.31.226.236

2.下载与安装conda

下载conda:

wget -c https://repo.anaconda.com/archive/Anaconda3-2023.03-1-Linux-x86_64.sh

安装conda:

bash Anaconda3-2023.03-1-Linux-x86_64.sh

设置环境:

vim ~/.bashrc

export PATH="/home/data5/xxx/anaconda3/bin:$PATH"

刷新环境:
source ~/.bashrc

激活自己的conda:

source /home/data5/xxx/anaconda3/bin/activate

可直接写入~/.bashrc

/home/data5/xxx/anaconda3/bin/activate

3.过程性问题

系统环境变量中显示/不显示环境名称:

conda config --add envs_dirs /home/data5/xxx/anaconda3/envsconda config --remove envs_dirs /home/adminroot/anaconda3/envs~/.condarc

envs_dirs中写入:/home/data5/xxx/anaconda3/envs

验证

出现自己的conda的版本而不是系统的conda版本即可

conda --version

实时查看gpu占用

watch -n 1 nvidia-smi

二、pychram连接服务器

pychram连接服务器:
Pycharm远程连接服务器并运行代码(详细!)_pycharm将代码同步到远程服务器-CSDN博客

Pycharm 远程开发时,使用远程服务器的终端功能_pycharm远程连接服务器怎么用终端-CSDN博客

三、window下ollama本地大模型部署

window安装ollama和docker和Open-WebUI:

在Windows上轻松部署本地大语言模型:Ollama与Open-WebUI的完整指南_ollama 安装-CSDN博客

Open-WebUI安装:

史上最简单open-webui安装方式!!!_open-webui 安装-CSDN博客

四、window下大模型部署

flash-attn要求torch版本较低

但是Qwen2要求tranformer版本较高,torch版本也较高

然后跑Qwen2模型又不得不两个都具备,所以在window上无解

五、linux下使用vllm部署大模型(request请求形式–可多卡)

1、linux安装vllm

pip install vllm

2、vllm启动Qwen2-VL-7B-Instruct

1)首先启动Qwen2-VL-7B-Instruct–CPU的

vllm serve Qwen2-VL-7B-Instruct --dtype auto --port 8000 --limit_mm_per_prompt image=4 --max_model_len 8784 --gpu_memory_utilization 0.8

或者先安装conda install -c nvidia nccl

启动Qwen2-VL-7B-Instruct-GPU的:vllm serve Qwen2-VL-7B-Instruct --dtype half --port 8000 --tensor-parallel-size 2 --pipeline-parallel-size 2 --gpu-memory-utilization 0.7 --limit_mm_per_prompt image=4 --max_model_len 8784

2)其次调用

Vllm进行Qwen2-vl部署(包含单卡多卡部署及爬虫请求)_vllm部署 qwen2-vl-CSDN博客

不能进行图片啊啊啊,似乎还是属于内存分配不够的问题

六、linux下部署大模型(非请求形式)

跑模型Qwen2-VL-7B-Instruct出现爆内存情况

1、转更小的模型Qwen2-VL-2B-Instruct+量化(flash-attn或者Auto-GPTQ)

将cuda10.2换成cuda11.8才能配flash-attn:

手动安装flash地址(实际上只能手动,自动报错解决不了):Releases · Dao-AILab/flash-attention

自动安装flash:安装flash-attention失败的终极解决方案_building wheels for collected packages: flash-attn-CSDN博客

Linux 服务器下非root用户安装CUDA完整流程(多次踩雷经验总结)_linux cuda安装-CSDN博客

cp cudnn-linux-x86_64-8.9.7.29_cuda11-archive/include/cudnn.h /home/data5/xxx

/cuda11.8/include/

cp cudnn-linux-x86_64-8.9.7.29_cuda11-archive/lib/libcudnn* /home/data5/xxx/cuda11.8/lib64/

chmod a+r /home/data5/xxx/cuda11.8/include/cudnn*.h

chmod a+r /home/data5/xxx/cuda11.8/lib64/libcudnn*

source ~/.bashrc

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple auto-gptq

使用:Py之auto-gptq:auto-gptq的简介、安装、使用方法之详细攻略-CSDN博客

结果:

2B+单图:量化与否都可以

2B+双图:得量化

7B+单图:得量化

7B+双图:得量化

实现网页跑qwen2:Qwen2本地web Demo_qwen2 7b 硬件要求-CSDN博客

qwen2测试代码地址(没有考虑显存不足的情况):MLM之Qwen:Qwen2-VL的简介、安装和使用方法、案例应用之详细攻略_qwen2-vl使用-CSDN博客

2、分卡跑

本地多卡(3090)部署通义千问Qwen-72B大模型提速实践:从龟速到够用_千问72b部署-CSDN博客

大模型笔记之-Qwen72B-chat-int4部署 |使用双卡3090成功运行_运行qwen-72b-CSDN博客

conda install pytorch==2.4.0 torchvision==0.19.0 torchaudio==2.4.0  pytorch-cuda=11.8 -c pytorch -c nvidiapip install imodelsxpip install pillow requestspip install transformerspip install torch==2.4.0pip install accelerate>=0.26.0pip install flash_attn-2.6.3+cu118torch2.4cxx11abiFALSE-cp311-cp311-linux_x86_64.whlpip install qwen_vl_utilspip install --upgrade spark_ai_pythonpip install openaipip install opencv-python

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/80857.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

亲测有效!OGG 创建抽取进程报错 OGG-08241,如何解决?

前言 今天在测试 OGG 一个功能的时候,需要重新初始化 oggca,所以重装了一下 OGG。重建完之后重新添加抽取进程报错,一直无法添加成功: 经过一翻分析,找到了解决方案,本文记录一下解决过程。 问题描述 OG…

Docker构建 Dify 应用定时任务助手

概述 Dify 定时任务管理工具是一个基于 GitHub Actions 的自动化解决方案,用于实现 Dify Workflow 的定时执行和状态监控。无需再为缺乏定时任务支持而感到困扰,本工具可以帮助设置自动执行任务并获取实时通知,优化你的工作效率。 注意&…

ubuntu24.04+RTX5090D 显卡驱动安装

初步准备 Ubuntu默认内核太旧,用mainline工具安装新版: sudo add-apt-repository ppa:cappelikan/ppa sudo apt update && sudo apt full-upgrade sudo apt install -y mainline mainline list # 查看可用内核列表 mainline install 6.13 # 安装…

网络爬虫(Web Crawler)详解

网络爬虫(Web Crawler)详解 1. 基本概念与核心目标 定义: 网络爬虫是一种自动化的程序,通过HTTP协议访问网页,提取并存储数据(如文本、链接、图片),并根据策略递归访问新链接。核心目标: 数据采集:抓取特定网站或全网公开数据。索引构建:为搜索引擎提供页面内容(如…

大模型如何助力数学可视化?

大家好,我是 i 学习的老章 在数学学习和教学中,将抽象概念可视化对于理解至关重要。Manim 是一个强大的数学动画引擎,由著名数学科普视频作者 3Blue1Brown 开发并广为人知。 老章较早之前就介绍过 manim:B 站上爆红的数学视频&a…

Oracle基础知识(二)

目录 1.聚合函数 2.COUNT(1)&COUNT(*)&COUNT(字段)区别(面试常问) 3.分组聚合——group by 4.去重:DISTINCT 、GROUP BY 5.聚合函数的过滤HAVING 6.oracle中having与where的区别 (面试常问) 7.ROUND与TRUNC函数 8.ROLLUP上卷…

DTAS 3D多约束装配助力悬架公差分析尺寸链计算:麦弗逊/双叉臂/多连杆/H臂一网打尽

摘要:汽车四轮定位参数与悬架密切相关。汽车悬架对于车辆的行驶性能、安全性和舒适性至关重要。DTAS 3D提供了各类型悬架的公差仿真分析方法。 关键字:DTAS 3D、前后悬架、公差仿真分析、 运动耦合 一、悬架公差分析综述 悬架是车身(或车架…

Serverless爬虫架构揭秘:动态IP、冷启动与成本优化

一、问题背景:旧技术的瓶颈 在传统爬虫架构中,我们通常部署任务在本地机器或虚拟机中,搭配定时器调度任务。虽然这种方式简单,但存在以下明显缺陷: 固定IP易被封禁:目标网站如拼多多会通过IP频率监控限制…

设备预测性维护的停机时间革命:中讯烛龙如何用AI重构工业设备管理范式

在工业4.0的智能化浪潮中,非计划停机每年吞噬企业3%-8%的产值。中讯烛龙预测性维护系统通过多模态感知矩阵分布式智能体的创新架构,实现设备健康管理的范式跃迁,帮助制造企业将停机时间压缩70%以上。本文将深度解析技术实现路径与行业级实践方…

Java面试攻略:从Spring Boot到微服务架构的深入探讨

Java面试攻略:从Spring Boot到微服务架构的深入探讨 场景设定 在一家知名互联网大厂的会议室里,资深面试官王老师正在对一位求职者谢飞机进行技术面试。谢飞机是一位幽默风趣的程序员,他的回答有时让人捧腹大笑。 第一轮:核心技…

LlamaIndex

1、大语言模型开发框架的价值是什么? SDK:Software Development Kit,它是一组软件工具和资源的集合,旨在帮助开发者创建、测试、部署和维护应用程序或软件。 所有开发框架(SDK)的核心价值,都是降低开发、维护成本。 大语言模型开发框架的价值,是让开发者可以更方便地…

【linux命令】git命令简单使用

git命令简单使用 1. 将代码下载到到本地2. 查看分支是否正确3. 将工作目录中的变更添加到暂存区,为下一次提交做准备4. 提交更改,添加提交信息5. 将本地的提交推送到远程仓库6.从远端仓库拉取分支代码7.查看修改日志8. 解决冲突 1. 将代码下载到到本地 …

debian系统redis-dump安装

1. ​Ruby 环境​ Redis-dump 是一个 Ruby 工具,需先安装 Ruby 和 RubyGems。 安装命令​: sudo apt update sudo apt install ruby-full build-essential[roota29d39f5fd10:/opt/redis-dump/bin# apt install ruby-full build-essential Reading pac…

微软押注“代理式AI网络”:一场重塑软件开发与工作方式的技术革命

在 2025 年 Build 开发者大会上,微软正式发布了其面向“开放代理式网络(Open Agentic Web)”的宏大战略,推出超过 50 项 AI 相关技术更新,涵盖 GitHub、Azure、Windows 和 Microsoft 365 全线产品。这一系列更新的核心…

【音频】wav文件如何解析编码格式(压缩格式)?

要确定一个WAV文件的编码格式,可以通过以下几种方法实现,包括使用操作系统自带工具、专业音频软件或编程解析文件头信息。以下是详细说明: 一、通过文件属性查看(Windows/macOS) 1. Windows系统 步骤: 右…

算法打卡第三天

10.长度最小的子数组 (力扣209题) 给定一个含有 n 个正整数的数组和一个正整数 target 。 找出该数组中满足其总和大于等于 target 的长度最小的 子数组 [numsl, numsl1, ..., numsr-1, numsr] ,并返回其长度**。**如果不存在符合条件的子…

数字电子技术基础(六十二)——使用Multisim软件绘制边沿触发的D触发器和JK触发器

1 使用Mulitism软件模拟时钟触发的D触发器 D触发器是一种基本的数字电路存储元件,它在时钟信号的边沿将输入数据D传递到输出Q。下面开始使用Multisim软件来模拟时钟触发的D触发器。 器件选择: 触发器选择:在组选项栏中点击Misc Digital&am…

自动获取新版本 js 静态文件

场景 代码里有静态js文件,发布一个版本1.0在真实环境,再修改重新发布2.0,用户如何得到新版本? 方法 一、文件名哈希策略(最推荐) 通过构建工具为文件生成唯一哈希值,使每次更新后的文件名不同…

第13天-用BeautifulSoup解析网页数据:以百度热搜可视化为例

一、BeautifulSoup简介 BeautifulSoup是Python最受欢迎的HTML/XML解析库之一,它能将复杂的网页文档转换为树形结构,支持多种解析器(如lxml、html.parser)。配合requests库,可以快速构建网页爬虫项目。 二、环境准备 pip install requests beautifulsoup4 matplotlib 三…

PyTorch中cdist和sum函数使用详解

torch.cdist 是 PyTorch 中用于计算**两个张量之间的成对距离(pairwise distance)**的函数,常用于点云处理、图神经网络、相似性度量等场景。 基本语法 torch.cdist(x1, x2, p2.0)参数说明: 参数说明x1一个形状为 [B, M, D] 或 …