文章目录
- 一、如何选择GPU和云服务器厂商,追求最高性价比
- 1)根据场景选择GPU
- 2)训练或微调所需显卡(以Falcon为例子)
- 3)服务器价格计算器
 
- 二、全球大模型了解
- 1)llm所有模型
- 2)模型综合排行
- 3)模型评测
- 4)国内大模型
- 5)文心一言API接入指南
- 6)国外域名服务商推荐
 
- 三、搭建OpenAI代理
- 1)搭建原理:透传
- 2)服务器选择
- 3)实践
 
- 四、基于云平台快速部署SD
- 五、本地计算机运行大型模型
- 1)Ollama基础
- 2)讲解Ollama API(略)
- 3)结合RAG运行:分析github仓库代码(略)
 
- 六、如何部署自己fine-tune的模型,向业务提供高可用推理服务
- 1)架构图
- 2)重要模块
 
- 七、基于vLLM部署大模型
- 1)vLLM部署开源大模型介绍
- 2)vLLM开启api调用
- 3)vLLM分布式推理
 
- 八、部署一套开源LLM项目
- 九、如何控制内容安全,做好算法备案,确保合规
 
一、如何选择GPU和云服务器厂商,追求最高性价比
-  AI常用GPU 
  
 有些京东能买,没过限制GPU对华出口不超过4800TOPS和带宽不超过600GB/s,导致最强的H100和A100禁售。黄教主后面推出针对中国市场的A800和H800
-  H100和A100对比: 
 16bit推理快3.5倍,16bit训练快2.3倍
  
-  LPU(推理特别快) 
  
  
-  云服务厂商对比 
 -国内主流
 阿里云:https://www.aliyun.com/product/ecs/gpu (可申请免费试用)
 腾讯云:https://cloud.tencent.com/act/pro/gpu-study
 火山引擎:https://www.volcengine.com/product/gpu
 -国外主流
 AWS:https://aws.amazon.com
 Vultr:https://www.vultr.com
 TPU:https://cloud.google.com/tpu
-  算力平台(内部先用,跑小模型):主要用于学习和训练 
 Colab:谷歌出品,升级服务仅需 9 美金。https://colab.google.com
 Kaggle:免费,每周 30 小时 T4,P100 可用。https://www.kaggle.com
 AutoDL:价格亲民,支持 Jupyter Notebook 及 ssh,国内首选。https://www.autodl.com
 建议:若一来GITHUB或Docker官方镜像,建议国外服务器
1)根据场景选择GPU
以下是我们为您提供的,基于显卡 4090 上的 chatglm 和 chatglm2 模型的 Fine tuning 实验数据概览:
 (微调数据不同导致所需时间不同)
 
2)训练或微调所需显卡(以Falcon为例子)
补充:Falcon 是目前为止 huggingface 上排行榜第一的模型

- 注意点
 ①对于本地个人研发项目,GeForce RTX 4090 等消费级 GPU 足以满足中等规模的需求。
 ②对于公司的大规模数据和复杂模型,推荐使用如 NVIDIA A100 的高性能 GPU。
 ③数据规模小时,可考虑预算内的 A10 或 T4 型号。
 ④如果追求性价比,可以选择把 4090 显卡搭建服务器使用,也可以选择市面的第三方服务,比如:AutoDL 的 4090 服务
- 补充资料
 https://gpus.llm-utils.org/cloud-gpu-guide/
 https://gpus.llm-utils.org/nvidia-h100-gpus-supply-and-demand/
3)服务器价格计算器
火山引擎提供的这个价格计算器很方便,做个大概的云服务器 GPU 选型价格参考。其它服务厂商价格相差不是很多。
https://www.volcengine.com/pricing?product=ECS&tab=2
二、全球大模型了解
1)llm所有模型
传送门
2)模型综合排行
传送门
 
3)模型评测
传送门
 
4)国内大模型
①国内模型列表
 传送门

- agicto.com能开发票
5)文心一言API接入指南
传送门
6)国外域名服务商推荐
①www.spaceship.com
 ②www.namecheap.com
三、搭建OpenAI代理
- 业务流程建议
 因为业务在国内,所以大部分业务代码在国内的服务器,国内服务器调用代理服务器即可。
1)搭建原理:透传
- 缺点
 容易触发官方封号概率
- 实现方案
 ①Nginx
 ②node服务
 ③纯js
①Nginx方案
server
{listen 80;server_name a.openaixx.com;index index.html;location / {proxy_pass https://api.openai.com;proxy_ssl_name api.openai.com;proxy_ssl_server_name on;proxy_set_header Host api.openai.com;proxy_set_header Upgrade $http_upgrade;proxy_set_header Connection 'upgrade';chunked_transfer_encoding off;proxy_read_timeout 3600;proxy_buffering off;proxy_cache off;proxy_redirect off;proxy_hide_header Cache-Control;}location ~ /.well-known {allow all;}access_log off;
}
参考
②node服务
 agi-proxy
③纯js方案
 复制以下代码,去 cloudflare 建立一个 worker 即可
 .传送门
2)服务器选择

-  vercel介绍 
 ①服务器提供商
 ②操作简单,选择项目添加,然后发版就可以部署了
 ③侧重前端
 ④云平台
-  render 
 ①可以用docker去构建
 ②像Nginx、redis都可以部署云服务
 ③云平台
-  zeabur 
 ①这个服务器好处是国内
 ②云平台
3)实践
用vercel部署自己一个OpenAI代理
四、基于云平台快速部署SD
五、本地计算机运行大型模型
1)Ollama基础
- ollama的作用:
 将各种大模型量化裁剪功能,让大模型能在本地能跑起来
- 网址
 https://ollama.com/library
 https://ollama.com/
- 本地调用询问API方式
curl http://localhost:11434/v1/chat/completions \-H "Content-Type: application/json" \-d '{"model": "wizardlm2","messages": [{"role": "system","content": "You are a helpful assistant."},{"role": "user","content": "你是谁?"}]}
- 端口
 11434
2)讲解Ollama API(略)
3)结合RAG运行:分析github仓库代码(略)
六、如何部署自己fine-tune的模型,向业务提供高可用推理服务
1)架构图

2)重要模块

七、基于vLLM部署大模型
1)vLLM部署开源大模型介绍
①定义:是一个快速且容易使用的库,用于大语言模型LLM的推理和服务
 ②特点:
1)速度快,每个请求需要3个并行输出完成时的服务器吞吐量,比huggingface transformer的吞吐量高出8.5到15倍,比huggingface文本生成推理TGI的吞吐量高3.3到3.5倍
2)优化的cuda内核
3)与huggingface模型无缝集成
4)支持张量并行处理,实现分布式推理
5)支持滚式输出