1 硬件选型
- CUDA 核心和 Tensor 核心
 
- CUDA 核心:是NVIDIA开发的并行计算平台和编程模型,用于GPU上的能用计算,可做很多的工作。应用在游戏、图形渲染、天气预测和电影特效
 - Tensor 核心:张量核心,专门设计用于深度学习的矩阵运算,加速深度学习算法中的关键计算过程
 
- 常用的GPU

 
| 显卡 | 目标市场 | 性能 | 应用场景 | 价格 | 
|---|---|---|---|---|
| T4 | 企业/AI 推理 | 适中 | AI 推理, 轻量级训练, 图形渲染 | 7999(14G) | 
| 4090 | 消费者 | 非常高 | 通用计算, 图形渲染, 高端游戏, 4K/8K 视频编辑 | 14599(24G) | 
| A10 | 企业/图形 | 适中 | 图形渲染, 轻量级计算 | 18999(24G) | 
| A6000 | 企业/图形 | 适中 | 图形渲染, 轻量级计算 | 32999(48G) | 
| V100 | 数据中心/AI | 高 | 深度学习训练/推理, 高性能计算 | 42999(32G) | 
| A100 | 数据中心/AI | 高 | 深度学习训练/推理, 高性能计算 | 69999(40G) | 
| A800 | 数据中心/AI | 中等 | 深度学习推理, 高性能计算, 大数据分析 | 110000 | 
| H100 | 数据中心/AI | 高 | 深度学习训练/推理, 高性能计算, 大数据分析 | 242000 | 
- LPU

 
Jonathan Ross - 前谷歌工程师,参与设计 TPU 芯片核心。后创办 Groq 公司,创造了世界首个语言处理单元 LPU™。
 LPU™ 推理引擎可提供卓越 AI 工作负载速度,比其他领先供应商快 18 倍。
- 云服务
 
国内主流云服务厂商
- 阿里云:https://www.aliyun.com/product/ecs/gpu
 - 腾讯云:https://cloud.tencent.com/act/pro/gpu-study
 - 火山引擎:https://www.volcengine.com/product/gpu
 
国外主流云服务厂商
- AWS:https://aws.amazon.com
 - Vultr:https://www.vultr.com
 - TPU:https://cloud.google.com/tpu
 
- 算力平台
主要用于学习和训练,不适合提供服务。 
- Colab:谷歌出品,升级服务仅需 9 美金。https://colab.google.com
 - Kaggle:免费,每周 30 小时 T4,P100 可用。https://www.kaggle.com
 - AutoDL:价格亲民,支持 Jupyter Notebook 及 ssh,国内首选。https://www.autodl.com
 
2 全球大模型选型
- 国产大模型
国产模型列表 
| 公司 | 名称 | 网址 | 备注 | 
|---|---|---|---|
| 百度 | 文心一言 | https://yiyan.baidu.com/ | |
| 阿里云 | 通义千问 | https://tongyi.aliyun.com/ | 开源模型Qwen-1.8B,7B,14B,72B、Qwen-VL和Qwen-Audio | 
| 科大讯飞 | 星火 | https://xinghuo.xfyun.cn/ | |
| 百川智能 | 百川 | https://chat.baichuan-ai.com/ | 开源小模型baichuan-7B和Baichuan-13B | 
| 零一万物 | Yi | https://github.com/01-ai/Yi | 6B 和 34B 开源模型 | 
| 360 | 智脑/一见 | https://ai.360.cn/, https://github.com/360CVGroup/SEEChat | |
| 昆仑万维 | 天工 Skywork | https://github.com/SkyworkAI/Skywork | 开源且可商用,无需单独申请,Skywork 是由昆仑万维集团·天工团队开发的一系列大型模型,本次开源的模型有 Skywork-13B-Base 模型、Skywork-13B-Chat 模型、Skywork-13B-Math 模型和 Skywork-13B-MM 模型 | 
| 腾讯 | 混元 | https://hunyuan.tencent.com/ | |
| 月之暗面 | Moonshot | https://www.moonshot.cn/ | “长文本”大模型 支持 20 万字输入 | 
| 商汤科技 | 商量 | https://chat.sensetime.com/ | 
- chat-lmsys

 - llmmodels

 - opencompass

 - huggingface

 - maximumtruth

 
3 OLLAMA部署
- https://ollama.com/

 - ollama run llama3

 - run llama3
 

 4. OpenWebUI 前端页面与大模型交互
open-webui

4 VLLM部署
- vllm

 
vLLM 是一个快速且易于使用的库,用于进行大型语言模型(LLM)的推理和服务。它具有以下特点:
-  
速度快:
在每个请求需要 3 个并行输出完成时的服务吞吐量。vLLM 比 HuggingFace Transformers(HF)的吞吐量高出 8.5 倍-15 倍,比 HuggingFace 文本生成推理(TGI)的吞吐量高出 3.3 倍-3.5 倍 -  
优化的 CUDA 内核
 -  
灵活且易于使用:
 -  
与流行的 Hugging Face 模型无缝集成。
 -  
高吞吐量服务,支持多种解码算法,包括并行抽样、束搜索等。
 -  
支持张量并行处理,实现分布式推理。
 -  
支持流式输出。
 -  
兼容 OpenAI API 服务器。
 
支持的模型
 vLLM 无缝支持多个 Hugging Face 模型,包括 Aquila、Baichuan、BLOOM、Falcon、GPT-2、GPT BigCode、GPT-J、GPT-NeoX、InternLM、LLaMA、Mistral、MPT、OPT、Qwen 等不同架构的模型。
- installation
 
# (Recommended) Create a new conda environment.
conda create -n myenv python=3.9 -y
conda activate myenv# Install vLLM with CUDA 12.1.
pip install vllm
 
- Prepared Model
以Yi-6B-Chat为例, 这个模型需要提前下载到服务器 - Run
 
python -m vllm.entrypoints.openai.api_server --model /root/autodl-tmp/Yi-6B-Chat --trust-remote-code --port 6006
 
使用autodl算力服务
curl https://u394727-bf57-ff9e7382.westb.seetacloud.com:8443/v1/chat/completions \-H "Content-Type: application/json" \-d '{"model": "/root/autodl-tmp/Yi-6B-Chat","max_tokens":60,"messages": [{"role": "user","content": "你知道承德吗?"}]}'
 

 
 
 5. 分布式推理
 要运行多 GPU 服务,请在启动服务器时传入 --tensor-parallel-size 参数。
例如,要在 2 个 GPU 上运行 API 服务器:
python -m vllm.entrypoints.openai.api_server --model /root/autodl-tmp/Yi-6B-Chat --dtype auto --api-key token-agiclass  --trust-remote-code --port 6006 --tensor-parallel-size 2
 
5 Dify部署
- dify

 - installation
 
cd docker
docker compose up -d
 

6 内容安全
敏感词库管理与用户输入过滤:
- 定期更新敏感词汇和短语库,应对文化变迁和当前事件。
 - 使用第三方服务或自建工具进行实时输入过滤和提示。推荐使用: 
- 网易易盾:https://dun.163.com/product/text-detection
 - 百度文本内容安全:https://ai.baidu.com/tech/textcensoring
 
 
7 备案步骤
什么情况下要备案?
- 对于 B2B 业务,不需要备案。
 - 但在 B2C 领域,一切要视具体情况而定。
 - 如果我们自主训练大型模型,这是必要的。
 - 但如果是基于第三方模型提供的服务,建议选择那些已获得备案并且具有较大影响力的模型。
 - 如果你使用了文心一言的模型,可以向他们的客服要相关算法备案号。
 
备案指南 && 申请引导
beian
yuque