Xinference大模型配置介绍并通过git-lfs、hf-mirror安装

在这里插入图片描述

文章目录

  • 一、Xinference开机服务systemd
  • 二、语言(LLM)模型
    • 2.1 配置介绍
    • 2.2 DeepSeek-R1-Distill-Qwen-32B(大杯)
      • 工具下载git-lfs(可以绕过Hugging Face)
    • 2.3 DeepSeek-R1-Distill-Qwen-32B-Q4_K_M-GGUF(小杯)
  • 三、嵌入(Embedding)模型
    • 3.1 安装BAAI/bge-large-zh-v1.5
  • 四、重排序(Rerank)模型
    • 4.1 git
    • 4.2 wget
  • 五、接入dify
  • 六、多模态模型支持


通过HF-Mirror镜像wget下载,常用的模型。


一、Xinference开机服务systemd

使用 systemd(适用于服务器长期运行)

  1. 创建 systemd 服务:
sudo vi /etc/systemd/system/xinference.service

填入:

[Unit]
Description=Xinference Service
After=network.target[Service]
ExecStart=/root/anaconda3/envs/xinference_env/bin/xinference --host 0.0.0.0 --port 9997
WorkingDirectory=/root
Restart=always
User=root[Install]
WantedBy=multi-user.target
  1. 重新加载 systemd 并启动服务:
sudo systemctl daemon-reload
sudo systemctl start xinference
sudo systemctl enable xinference  # 开机自启
  1. 查看日志:
sudo journalctl -u xinference -f
  1. 停止服务:
sudo systemctl stop xinference

二、语言(LLM)模型

2.1 配置介绍

模型引擎

在这里插入图片描述

分别是:

  1. Transformers

    • 依赖 Hugging Face Transformers 库,适用于标准 PyTorch 或 TensorFlow 部署,通常兼容性较好,支持多种硬件加速(如 GPU)。
  2. vLLM

    • 适用于高吞吐量推理,利用 PagedAttention 进行优化,推荐用于大规模推理场景,减少显存占用。
  3. SGLang

    • 可能是专门优化的推理引擎,具体表现需要查看官方文档或测试。
  4. llama.cpp

    • 适用于 CPU 运行,优化了低资源设备上的 LLM 推理,适合本地运行或嵌入式环境。

选择建议:

  • 高性能 GPU 推理vLLM
  • 通用部署(PyTorch / TensorFlow 支持):Transformers
  • 低资源或本地运行(CPU 推理)llama.cpp
  • 特定优化需求SGLang(需要进一步了解其特点)

模型格式

在这里插入图片描述

现在的 模型格式 选项增加了 gptq,它与 awq 一样是 量化推理优化 方案,但两者在优化策略上有所不同:

  1. pytorch

    • 原生 PyTorch 格式,未量化,最高精度但占用更多显存。
    • 适用于 高精度推理,但对硬件要求较高。
  2. awq (Activation-aware Weight Quantization)

    • 量化方案,主要优化 激活值感知权重量化,可以减少推理时的计算开销,同时保持较高的精度。
    • 适用于 低显存 GPU 或高吞吐场景,如 vLLMllama.cpp
    • 更适合多种硬件,特别是 NVIDIA GPU 运行。
  3. gptq (Generalized Post-Training Quantization)

    • 另一种 后训练量化 方法,目标是 最小化量化误差,尤其对 Transformer 模型进行优化。
    • GPTQ 量化后的模型通常比 AWQ 更轻量,适用于 极限压缩场景(如 4-bit GPTQ)。
    • 适用于 低功耗设备超大模型的轻量化部署

选择建议:

  • 如果显存足够,追求最佳模型精度pytorch
  • 如果需要在低显存 GPU(如 24GB 以内)高效推理awq
  • 如果显存极其受限(如 16GB 或更低),或需要极端优化gptq

如果你打算在 Deepseek高效部署一个大模型,建议选择 awqgptq


2.2 DeepSeek-R1-Distill-Qwen-32B(大杯)

工具下载git-lfs(可以绕过Hugging Face)

解决方案:安装 git-lfs

你需要先安装 git-lfs,然后才能正确克隆和下载模型。

步骤 1:安装 git-lfs

根据你的系统类型选择对应的安装方法:

Ubuntu / Debian

apt update && apt install -y git-lfs

CentOS / RHEL

yum install -y epel-release
yum install -y git-lfs

Mac (如果你在本地 Mac 运行)

brew install git-lfs

Windows(如果你在 Windows 本地)
直接去官网下载安装:https://git-lfs.github.com/


步骤 2:启用 git-lfs

安装完成后,执行:

git lfs install

如果成功,你会看到:

Git LFS initialized.

步骤 3:克隆模型

git clone https://huggingface.co/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B.git

然后进入目录:

cd DeepSeek-R1-Distill-Qwen-32B
ls -lh

如果 .safetensors 还没有下载完整,执行:

git lfs pull

这将确保所有 LFS 文件正确下载。

当然可能git: ‘lfs’ is not a git command. See ‘git --help’.

问题分析
系统 无法安装 git-lfs,因为 apt update 过程中出现了 GPG 错误无法解析某些仓库地址 的问题:

  1. NO_PUBKEY A4B469963BF863CC
    • 说明你的系统缺少 NVIDIA CUDA 仓库的 GPG 公钥
  2. Could not resolve 'mirror.rightscale.com'
    • 这个仓库地址已经不可用或 DNS 解析失败。

解决方案

1. 先修复 apt update 失败的问题

① 删除无效的 RightScale 仓库

sudo rm -f /etc/apt/sources.list.d/rightscale*

② 添加缺失的 NVIDIA 公钥

sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/7fa2af80.pub

③ 再次更新 apt

sudo apt update

2. 安装 git-lfs
如果 apt update 修复成功,你可以尝试:

sudo apt install -y git-lfs

安装完成后,运行:

git lfs install

如果成功,你会看到:

Git LFS initialized.

3. 如果 apt 仍然无法安装 git-lfs,尝试手动安装

① 下载 Git LFS 安装包

wget https://github.com/git-lfs/git-lfs/releases/latest/download/git-lfs-linux-amd64.tar.gz

② 解压并安装

tar -xvzf git-lfs-linux-amd64.tar.gz
sudo ./install.sh

③ 验证安装

git lfs --version

④ 启用 Git LFS

git lfs install

最终测试

如果 git-lfs 安装成功,你可以尝试重新克隆模型:

git clone https://hf-mirror.com/deepseek-ai/DeepSeek-R1-Distill-Qwen-32B.git
cd DeepSeek-R1-Distill-Qwen-32B
git lfs pull

如果下载仍然不完整,可以尝试 wgetaria2c 下载 .safetensors 文件。


在这里插入图片描述

下载很慢,下完还要等一会,因此建议用宝塔(两个网页),方便看情况

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

下载完后,.git会很大
在这里插入图片描述
如果只是使用模型,直接删除 .git 目录 ✅
如果还想更新模型,建议保留 .git 目录 🔄
如果要节省空间但保留 git-lfs 更新能力,可精简 .git 目录 🛠
Xinference配置:GPU索引根据机器情况设置。

!!! 大模型启动较慢,且Xinference用网页打开有缓存问题,因此不要着急。
在这里插入图片描述

2.3 DeepSeek-R1-Distill-Qwen-32B-Q4_K_M-GGUF(小杯)

通过hf-mirror

wget https://hf-mirror.com/roleplaiapp/DeepSeek-R1-Distill-Qwen-32B-Q4_K_M-GGUF/resolve/main/deepseek-r1-distill-qwen-32b-q4_k_m.gguf

三、嵌入(Embedding)模型

嵌入(Embedding)模型,选择合适的模型取决于你的具体需求,例如 语言支持维度大小最大 token 数应用场景。以下是对比分析:
在这里插入图片描述

模型对比分析

模型名称语言支持维度最大 Token 数适用场景
bge-large-zh-v1.5中文1024512适用于中文语义搜索、文本匹配
bge-large-en-v1.5英文1024512适用于英文文本匹配
bge-m3中文+英文10248192适用于多语言检索,支持更长文本
gte-Qwen2中文+英文358432000适用于大规模检索、高质量向量表示
jina-embeddings-v3中文+英文10248192适用于跨语言检索、语义匹配

推荐选择

  1. 如果你的任务是中文语义检索

    • 选择 bge-large-zh-v1.5,它是专门针对中文优化的。
  2. 如果是英文语义检索

    • 选择 bge-large-en-v1.5,它是英文版本的最佳选择。
  3. 如果需要中英混合检索,且输入文本较短

    • 选择 bge-m3,支持多语言,最大 token 数较大。
  4. 如果是超长文本、高精度应用(如搜索引擎)

    • 选择 gte-Qwen2,它的 维度 更高(3584),最大 token 也更长(32000)。
  5. 如果是跨语言检索

    • 选择 jina-embeddings-v3,在多语言场景下表现不错。

总结

  • 轻量级中文嵌入bge-large-zh-v1.5
  • 轻量级英文嵌入bge-large-en-v1.5
  • 通用多语言支持bge-m3
  • 高性能长文本支持gte-Qwen2
  • 跨语言匹配jina-embeddings-v3

如果你的应用场景是 大规模检索、向量数据库存储(如 FAISS),那么 gte-Qwen2bge-m3 是更好的选择。

如果仅是 普通文本匹配或短文本搜索bge-large-zh-v1.5(中文)或 bge-large-en-v1.5(英文)就足够了。

3.1 安装BAAI/bge-large-zh-v1.5

git clone https://hf-mirror.com/BAAI/bge-large-zh-v1.5.git

四、重排序(Rerank)模型

4.1 git

git clone https://hf-mirror.com/BAAI/bge-reranker-v2-m3.git

4.2 wget

你可以按照以下步骤在 /usr/local 目录下新建文件夹,并下载模型:

  1. 创建目录并赋权
sudo mkdir -p /usr/local/models/bge-reranker-v2-m3
sudo chmod -R 777 /usr/local/models/bge-reranker-v2-m3
cd /usr/local/models/bge-reranker-v2-m3
  1. 使用 wget 从 HF Mirror 下载模型
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/model.safetensors
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/sentencepiece.bpe.model
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/config.json
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/tokenizer.json
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/tokenizer_config.json
wget -c https://hf-mirror.com/BAAI/bge-reranker-v2-m3/resolve/main/special_tokens_map.json

-c 选项用于支持断点续传,防止下载中断后需要重新开始。

  1. 检查下载文件的大小
ls -lh /usr/local/models/bge-reranker-v2-m3

确认 model.safetensors 大小是否接近 2.27 GB,其余文件大小也要和 HF Mirror 网站上保持一致。

  1. 修改 Xinference 配置

Xinference 的模型路径参数中,填写:

/usr/local/models/bge-reranker-v2-m3

然后重新加载模型。

这样,你的 bge-reranker-v2-m3 模型应该就能正确运行了! 🚀

五、接入dify

以上就是常用的大模型了,我们可以介入dify使用了。

在这里插入图片描述

六、多模态模型支持

FLUX.1-dev

git clone https://hf-mirror.com/black-forest-labs/FLUX.1-dev.git
cd FLUX.1-dev
git lfs pull

以下是支持的,可去自行探索;hf-mirror
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/72518.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MyBatis操纵数据库-XML实现(补充)

目录 一.多表查询二.MyBatis参数赋值(#{ }和${ })2.1 #{ }和${ }的使用2.2 #{ }和${ }的区别2.3 SQL注入2.3 ${ }的应用场景2.3.1 排序功能2.3.2 like查询 一.多表查询 多表查询的操作和单表查询基本相同,只需改变一下SQL语句,同时也要在实体类中创建出…

快速导出接口设计表——基于DOMParser的Swagger接口详情半自动化提取方法

作者声明:不想看作者声明的(需要生成接口设计表的)直接前往https://capujin.github.io/A2T/。 注:Github Pages生成的页面可能会出现访问不稳定,暂时没将源码上传至Github,如有需要,可联系我私…

TS常见内置映射类型的实现及应用场景

以下是 TypeScript 在前端项目中 常用的映射类型&#xff08;Mapped Types&#xff09;&#xff0c;结合具体场景和代码示例&#xff0c;帮助开发者高效处理复杂类型&#xff1a; 一、基础映射类型 1. Partial<T> 作用&#xff1a;将对象类型 T 的所有属性变为可选。 实…

介绍如何使用YOLOv8模型进行基于深度学习的吸烟行为检测

下面为你详细介绍如何使用YOLOv8模型进行基于深度学习的吸烟行为检测&#xff0c;包含环境配置、数据准备、模型训练以及推理等步骤。 1. 环境配置 首先&#xff0c;你需要安装必要的库&#xff0c;主要是ultralytics库&#xff0c;它包含了YOLOv8模型。你可以使用以下命令进…

AI-医学影像分割方法与流程

AI医学影像分割方法与流程–基于低场磁共振影像的病灶识别 – 作者:coder_fang AI框架&#xff1a;PaddleSeg 数据准备&#xff0c;使用MedicalLabelMe进行dcm文件标注&#xff0c;产生同名.json文件。 编写程序生成训练集图片&#xff0c;包括掩码图。 代码如下: def doC…

【Python】09、字典

文章目录 1. 字典简介2. 字典的使用2.1 字典创建2.2 字典值获取2.3 字典值修改2.4 字典的删除 3. 字典的遍历 1. 字典简介 字典(dict)属于一种新的数据结构&#xff0c;称为映射(mapping)。 字典的作用和列表类似&#xff0c;但是查询性能比列表好&#xff1b;在字典中每个元…

【贪心算法4】

力扣452.用最少数量的剪引爆气球 链接: link 思路 这道题的第一想法就是如果气球重叠得越多那么用箭越少&#xff0c;所以先将气球按照开始坐标从小到大排序&#xff0c;遇到有重叠的气球&#xff0c;在重叠区域右边界最小值之前的区域一定需要一支箭&#xff0c;这道题有两…

SGMEA: Structure-Guided Multimodal Entity Alignment

3 Method 3.1 Problem Definition 3.2 Framework Description 总体框架如图2所示&#xff0c;由三个主要部分组成&#xff1a;初始嵌入采集模块、结构引导模块和模态融合模块。 3.3 Initial Embedding Acquisition 3.3.1 Structural Embedding 3.3.2 Relation, Attribute, …

KY-038 声音传感器如何工作以及如何将其与 ESP32 连接

想为您的项目赋予声音感!然后跟着做,因为在这个项目中,我们将连接一个声音传感器,用它构建一些有趣的项目。我们使用的 KY-038 声音传感器使用电容式麦克风来检测声波,这为我们提供了稳定性和可靠性的完美平衡。因此,在本文中,我们决定将 KY-038 传感器与 ESP32 连接,并…

《基于超高频RFID的图书馆管理系统的设计与实现》开题报告

一、研究背景与意义 1.研究背景 随着信息化时代的到来&#xff0c;运用计算机科学技术实现图书馆的管理工作已成为优势。更加科学地管理图书馆会大大提高工作效率。我国的图书管理体系发展经历了三个阶段&#xff1a;传统图书管理模式、现代图书管理模式以及基于无线射频识别&…

[local-file-system]基于服务器磁盘的本地文件存储方案

[local-file-system]基于服务器磁盘的本地文件存储方案 仅提供后端方案 github 环境 JDK11linux/windows/mac 应用场景 适用于ToB业务&#xff0c;中小企业的单体服务&#xff0c;仅使用磁盘存储文件的解决方案 仅使用服务器磁盘存储 与业务实体相结合的文件存储方案&…

P5708 【深基2.习2】三角形面积(洛谷—python)

题目描述 一个三角形的三边长分别是 a、b、c&#xff0c;那么它的面积为 p(p−a)(p−b)(p−c)​&#xff0c;其中 p21​(abc)。输入这三个数字&#xff0c;计算三角形的面积&#xff0c;四舍五入精确到 1 位小数。 输入格式 第一行输入三个实数 a,b,c&#xff0c;以空格隔开…

智慧加油站小程序数据库设计文档

智慧加油站系统 - 数据库与API设计文档 1. 数据库设计 1.1 ER模型 系统的核心实体关系如下&#xff1a; 用户(User) ---< 订单(Order) ---< 加油记录(RefuelRecord)| | || | vv v …

C++博客分享

本周的一些 C视频分享, 或许后续会做一些内容总结. 博客 Polymorphic, Defaulted EqualityConstexpr factors_ofC26: Removing language featuresBypassing the branch predictor Meeting C 2024 Clean CMake for C (library) developers - Kerstin KellerAn Introduction …

【蓝桥杯每日一题】3.16

&#x1f3dd;️专栏&#xff1a; 【蓝桥杯备篇】 &#x1f305;主页&#xff1a; f狐o狸x 目录 3.9 高精度算法 一、高精度加法 题目链接&#xff1a; 题目描述&#xff1a; 解题思路&#xff1a; 解题代码&#xff1a; 二、高精度减法 题目链接&#xff1a; 题目描述&…

vue 仿deepseek前端开发一个对话界面

后端&#xff1a;调用deepseek的api&#xff0c;所以返回数据格式和deepseek相同 {"model": "DeepSeek-R1-Distill-Qwen-1.5B", "choices": [{"index": 0, "delta": {"role": "assistant", "cont…

SpringMVC(五)拦截器

目录 拦截器基本概念 一 单个拦截器的执行 1 创建拦截器 2 SpringMVC配置&#xff0c;并指定拦截路径。 3 运行结果展示&#xff1a; 二 多个拦截器的执行顺序 三 拦截器与过滤器的区别 拦截器基本概念 SpringMVC内置拦截器机制&#xff0c;允许在请求被目标方法处理的…

Hive SQL 精进系列:PERCENTILE_APPROX 搞定分位数

目录 一、引言二、percentile_approx 函数基础2.1 基本语法参数解释返回值简单示例 三、应用场景3.1 数据分析与报告3.2 数据清洗与异常值检测3.3 性能监控与优化 四、使用注意事项4.1 数据类型要求4.2 精度与性能平衡4.3 空值处理 五、总结 一、引言 百分位数作为一种常用的统…

pytorch快速入门——手写数字分类GPU加速

&#x1f451;主页&#xff1a;吾名招财 &#x1f453;简介&#xff1a;工科学硕&#xff0c;研究方向机器视觉&#xff0c;爱好较广泛… ​&#x1f4ab;签名&#xff1a;面朝大海&#xff0c;春暖花开&#xff01; pytorch快速入门——手写数字分类GPU加速 一、tensor1&#…

【开源免费】基于SpringBoot+Vue.JS电商应用系统(JAVA毕业设计)

本文项目编号 T 242 &#xff0c;文末自助获取源码 \color{red}{T242&#xff0c;文末自助获取源码} T242&#xff0c;文末自助获取源码 目录 一、系统介绍二、数据库设计三、配套教程3.1 启动教程3.2 讲解视频3.3 二次开发教程 四、功能截图五、文案资料5.1 选题背景5.2 国内…