大模型学习笔记十二:AI产品部署

文章目录

    • 一、如何选择GPU和云服务器厂商,追求最高性价比
      • 1)根据场景选择GPU
      • 2)训练或微调所需显卡(以Falcon为例子)
      • 3)服务器价格计算器
    • 二、全球大模型了解
      • 1)llm所有模型
      • 2)模型综合排行
      • 3)模型评测
      • 4)国内大模型
      • 5)文心一言API接入指南
      • 6)国外域名服务商推荐
    • 三、搭建OpenAI代理
      • 1)搭建原理:透传
      • 2)服务器选择
      • 3)实践
    • 四、基于云平台快速部署SD
    • 五、本地计算机运行大型模型
      • 1)Ollama基础
      • 2)讲解Ollama API(略)
      • 3)结合RAG运行:分析github仓库代码(略)
    • 六、如何部署自己fine-tune的模型,向业务提供高可用推理服务
      • 1)架构图
      • 2)重要模块
    • 七、基于vLLM部署大模型
      • 1)vLLM部署开源大模型介绍
      • 2)vLLM开启api调用
      • 3)vLLM分布式推理
    • 八、部署一套开源LLM项目
    • 九、如何控制内容安全,做好算法备案,确保合规

一、如何选择GPU和云服务器厂商,追求最高性价比

  • AI常用GPU
    在这里插入图片描述
    有些京东能买,没过限制GPU对华出口不超过4800TOPS和带宽不超过600GB/s,导致最强的H100和A100禁售。黄教主后面推出针对中国市场的A800和H800

  • H100和A100对比:
    16bit推理快3.5倍,16bit训练快2.3倍
    在这里插入图片描述

  • LPU(推理特别快)
    在这里插入图片描述
    在这里插入图片描述

  • 云服务厂商对比
    -国内主流
    阿里云:https://www.aliyun.com/product/ecs/gpu (可申请免费试用)
    腾讯云:https://cloud.tencent.com/act/pro/gpu-study
    火山引擎:https://www.volcengine.com/product/gpu
    -国外主流
    AWS:https://aws.amazon.com
    Vultr:https://www.vultr.com
    TPU:https://cloud.google.com/tpu

  • 算力平台(内部先用,跑小模型):主要用于学习和训练
    Colab:谷歌出品,升级服务仅需 9 美金。https://colab.google.com
    Kaggle:免费,每周 30 小时 T4,P100 可用。https://www.kaggle.com
    AutoDL:价格亲民,支持 Jupyter Notebook 及 ssh,国内首选。https://www.autodl.com
    建议:若一来GITHUB或Docker官方镜像,建议国外服务器

1)根据场景选择GPU

以下是我们为您提供的,基于显卡 4090 上的 chatglm 和 chatglm2 模型的 Fine tuning 实验数据概览:
(微调数据不同导致所需时间不同)
在这里插入图片描述

2)训练或微调所需显卡(以Falcon为例子)

补充:Falcon 是目前为止 huggingface 上排行榜第一的模型

在这里插入图片描述

  • 注意点
    ①对于本地个人研发项目,GeForce RTX 4090 等消费级 GPU 足以满足中等规模的需求。
    ②对于公司的大规模数据和复杂模型,推荐使用如 NVIDIA A100 的高性能 GPU。
    ③数据规模小时,可考虑预算内的 A10 或 T4 型号。
    ④如果追求性价比,可以选择把 4090 显卡搭建服务器使用,也可以选择市面的第三方服务,比如:AutoDL 的 4090 服务
  • 补充资料
    https://gpus.llm-utils.org/cloud-gpu-guide/
    https://gpus.llm-utils.org/nvidia-h100-gpus-supply-and-demand/

3)服务器价格计算器

火山引擎提供的这个价格计算器很方便,做个大概的云服务器 GPU 选型价格参考。其它服务厂商价格相差不是很多。

https://www.volcengine.com/pricing?product=ECS&tab=2

二、全球大模型了解

1)llm所有模型

传送门

2)模型综合排行

传送门
在这里插入图片描述

3)模型评测

传送门
在这里插入图片描述

4)国内大模型

①国内模型列表
传送门

在这里插入图片描述

  • agicto.com能开发票

5)文心一言API接入指南

传送门

6)国外域名服务商推荐

①www.spaceship.com
②www.namecheap.com

三、搭建OpenAI代理

  • 业务流程建议
    因为业务在国内,所以大部分业务代码在国内的服务器,国内服务器调用代理服务器即可。

1)搭建原理:透传

  • 缺点
    容易触发官方封号概率
  • 实现方案
    ①Nginx
    ②node服务
    ③纯js

①Nginx方案

server
{listen 80;server_name a.openaixx.com;index index.html;location / {proxy_pass https://api.openai.com;proxy_ssl_name api.openai.com;proxy_ssl_server_name on;proxy_set_header Host api.openai.com;proxy_set_header Upgrade $http_upgrade;proxy_set_header Connection 'upgrade';chunked_transfer_encoding off;proxy_read_timeout 3600;proxy_buffering off;proxy_cache off;proxy_redirect off;proxy_hide_header Cache-Control;}location ~ /.well-known {allow all;}access_log off;
}

参考

②node服务
agi-proxy

③纯js方案
复制以下代码,去 cloudflare 建立一个 worker 即可
.传送门

2)服务器选择

在这里插入图片描述

  • vercel介绍
    ①服务器提供商
    ②操作简单,选择项目添加,然后发版就可以部署了
    ③侧重前端
    ④云平台

  • render
    ①可以用docker去构建
    ②像Nginx、redis都可以部署云服务
    ③云平台

  • zeabur
    ①这个服务器好处是国内
    ②云平台

3)实践

用vercel部署自己一个OpenAI代理

四、基于云平台快速部署SD

五、本地计算机运行大型模型

1)Ollama基础

  • ollama的作用:
    将各种大模型量化裁剪功能,让大模型能在本地能跑起来
  • 网址
    https://ollama.com/library
    https://ollama.com/
  • 本地调用询问API方式
curl http://localhost:11434/v1/chat/completions \-H "Content-Type: application/json" \-d '{"model": "wizardlm2","messages": [{"role": "system","content": "You are a helpful assistant."},{"role": "user","content": "你是谁?"}]}
  • 端口
    11434

2)讲解Ollama API(略)

3)结合RAG运行:分析github仓库代码(略)

六、如何部署自己fine-tune的模型,向业务提供高可用推理服务

1)架构图

在这里插入图片描述

2)重要模块

①

七、基于vLLM部署大模型

1)vLLM部署开源大模型介绍

①定义:是一个快速且容易使用的库,用于大语言模型LLM的推理和服务
②特点:

1)速度快,每个请求需要3个并行输出完成时的服务器吞吐量,比huggingface transformer的吞吐量高出8.5到15倍,比huggingface文本生成推理TGI的吞吐量高3.3到3.5倍
2)优化的cuda内核
3)与huggingface模型无缝集成
4)支持张量并行处理,实现分布式推理
5)支持滚式输出

2)vLLM开启api调用

3)vLLM分布式推理

八、部署一套开源LLM项目

九、如何控制内容安全,做好算法备案,确保合规

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/48451.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

WSL2 Centos7 Docker服务启动失败怎么办?

wsl 安装的CentOS7镜像,安装了Docker之后,发现用systemctl start docker 无法将docker启动起来。 解决办法 1、编辑文件 vim /usr/lib/systemd/system/docker.service将13行注释掉,然后在下面新增14行的内容。然后保存退出。 2、再次验证 可以发现,我们已经可以正常通过s…

初步认识css(1)

目录 一. css概述 二. css基本语法 1. 样式表 1.1 行内样式表 1.2 内嵌样式表 1.3 外部样式表 三. 选择器 1.标签选择器 2. 类选择器 3. id选择器 4. 通配选择器 5. 后代选择器 6. 选择器的优先级 三. 文本 四. 背景 五. 列表 六. 伪类 七. 透明 八. 标签…

offer题目51:数组中的逆序对

题目描述:在数组中的两个数字,如果前面一个数字大于后面的数字,则这两个数字组成一个逆序对。输入一个数组,求出这个数组中的逆序对的总数。例如,在数组{7,5,6,4}中,一共存在5个逆序对,分别是(7…

给Wordpress添加评分功能到评论表单

今天要 给你的 Wordpress 添加评分功能到评论表单 吗? 评分功能效果图 什么类型的网站需要评分? 资源站教程站其他,我也没想到。。。 但我这个网站,因为是电影类的网站,好像还是有点需要的,所以&#xf…

IOT 的 10 种常见协议、组网模式、特点及其使用场景浅析

前情: 开放系统互连(OSI)模型,它列出了七层。从下到上,各层如下: 物理层 数据链接 网络层 传输层 会话层 推介会 应用层 物联网也以多层模型的形式表达。尽管有些使用 OSI 七层模型,但其…

MySQL8的备份方案——全量(完全)备份(CentOS)

MySQL8的全量备份 一、安装备份工具二、备份数据三、恢复备份 点击跳转增量备份 点击跳转差异备份 点击跳转压缩备份 一、安装备份工具 官网 下载地址 备份所用工具为percona-xtrabackup 如果下方安装工具的教程失效,请点击上方下载地址转到官方文档查看 下载该工…

Kotlin 函数式编程与lambda表达式

文章目录 1. 集合的函数式API2. Java函数式API3. 常见集合的API 1. 集合的函数式API //找出水果集合里长度最长的单词 val list listOf("Apple", "Banana", "Orange", "Pear", "Grape", "Watermelon") val maxL…

针对汽车应用而设计的SCT4026D、SCT4062K、SCT3105K、SCT3080A、SCT3060A全新系列碳化硅 (SiC) MOSFET

全新系列碳化硅 (SiC) MOSFET SCT4026DWAHRTL SCT4062KWAHRTL SCT3105KRC15 SCT3080ALHRC11 SCT3080ARC15 SCT3060ARC15 ——明佳达 AEC-Q101 SiC功率MOSFETs是汽车和开关电源的理想选择。SiC功率MOSFETs可以提高开关频率,减少所需的电容、电抗器和其他元件的体积…

Ubuntu安装apex

Ubuntu安装apex 问题前期准备安装apex 问题 Ubuntu在使用apex官方的说明安装apex时或多或少会出现一些奇怪的问题,导致安装不上。 apex的github网址为:https://github.com/NVIDIA/apex 前期准备 ubuntu系统中的cuda版本需要和当前python环境中的一致&…

【RAG探索第4讲】KG+RAG丨基于知识图谱优化大型语言模型方法

原文链接:【RAG探索第4讲】KGRAG丨基于生物医学知识图谱优化的大型语言模型提示生成方法 一、现有问题: LLMs在处理特定领域或高度专业化查询时缺乏专业知识,导致回答不够准确和可靠。 LLMs可能会产生事实错误(即幻觉&#xff0…

【计算机视觉】siamfc论文复现

什么是目标跟踪 使用视频序列第一帧的图像(包括bounding box的位置),来找出目标出现在后序帧位置的一种方法。 什么是孪生网络结构 孪生网络结构其思想是将一个训练样本(已知类别)和一个测试样本(未知类别)输入到两个CNN(这两个CNN往往是权值共享的)中&#xff0…

深入理解PHP基础【代码审计实战指南】

文章目录 基础语法单双引号的区别前后端分离数据类型PHP常量函数var_dump函数count函数print_r函数**readfile()函数****file_get_contents()函数****file_put_contents()函数**header函数fopen函数fread 函数rename函数copy()函数…

OCR识别采购单小程序管理助手

千呼新零售2.0系统是零售行业连锁店一体化收银系统,包括线下收银线上商城连锁店管理ERP管理商品管理供应商管理会员营销等功能为一体,线上线下数据全部打通。 适用于商超、便利店、水果、生鲜、母婴、服装、零食、百货、宠物等连锁店使用。 详细介绍请…

Qt开发网络嗅探器01

引言 随着互联网的快速发展和普及,人们对网络性能、安全和管理的需求日益增 长。在复杂的网络环境中,了解和监控网络中的数据流量、安全事件和性能 问题变得至关重要。为了满足这些需求,网络嗅探器作为一种重要的工具被 广泛应用。 网络嗅探…

【Godot4.2】SVGParser - SVG解析器函数库

概述 这是一个基于GDScript内置XMLParser编写的简易SVG文件解析函数库。 目的就是可以将SVG文件解析为GDSCript可以处理的字典或DOM形式,方便SVG渲染和编辑。 目前还只是一个简易实现版本。还需要一些改进。 函数库源码 # # 名称:SVGParser # 类型…

AI算法23-决策树ID3算法Iterative Dichotomiser 3 | ID3

目录 决策树ID3算法概述 决策树ID3算法简介 决策树ID3算法的原理 决策树ID3算法的核心 决策树ID3算法的本质 决策树ID3算法的基本流程 决策树ID3算法计算过程 步骤1 步骤2 步骤3 决策树ID3算法的代码实现 决策树ID3算法的优缺点 优点 缺点 决策树ID3算法的应用场…

驱动开发系列06 - 内存映射和DMA

一:概述 本文深入探讨 Linux 内存管理子系统,重点介绍对设备驱动程序编写者有用的技术。许多类型的驱动程序编程都需要对虚拟内存子系统的工作原理有一定的了解;当我们编写一些更复杂、对性能要求更高的驱动时,本文所涉及的内容就会派上用场。虚拟内存子系统也是 Linux 核心…

基于trace_id实现SpringCloudGateway网关的链路追踪

之前写的两篇关于基于 trace_id 的链路追踪的文章: 基于trace_id的链路追踪(含Feign、Hystrix、线程池等场景)基于trace_id的链路追踪(ForkJoinPool场景) 一、引言 在之前的文章中,我们讨论了基于 trace…

ue5笔记

1 点光源 聚光源 矩形光源 参数比较好理解 (窗口里面)环境光混合器:快速创造关于环境光的组件 大气光源:太阳光,定向光源 天空大气:蓝色的天空和大气 高度雾:大气下面的高度感的雾气 体积…

【HarmonyOS】HarmonyOS NEXT学习日记:五、交互与状态管理

【HarmonyOS】HarmonyOS NEXT学习日记:五、交互与状态管理 在之前我们已经学习了页面布局相关的知识,绘制静态页面已经问题不大。那么今天来学习一下如何让页面动起来、并且结合所学完成一个代码实例。 交互 如果是为移动端开发应用,那么交…