学习大模型的流程是什么 ?
- 提示词工程:只需掌握提问技巧即可使用大模型,通过优化提问方式获得更精准的模型输出
- 套壳应用开发:在大模型生态上开发业务层产品(如AI主播、AI小助手等),只需调用API或使用零代码部署工具
- 私有知识库构建:通过API调用大模型时,为其配备向量数据库和知识图谱作为外挂资料库
- AI Agent开发:为大模型添加记忆体、手和脚,使其具备决策和工作能力的智能体
- 模型微调:调整大模型参数使其输出更符合特定需求
- 部署与训练:最高阶应用,包括大模型的本地部署和训练
1. 编程语言(Python)
-
核心作用:Python是大模型领域的通用语言,因其简洁语法、丰富的库(如NumPy、PyTorch)和活跃的生态。
-
学习重点:基础语法、列表/字典等数据结构、面向对象编程、文件操作等。
-
意义:是后续学习其他技术的工具基础。
2. 向量数据库
-
本质:将文本、图像等数据转化为多维向量(如[0.2, -0.5, 0.7])存储,通过向量相似度(如余弦相似度)实现高效检索。
-
代表工具:
-
Chroma:轻量级,适合快速原型开发。
-
FAISS(Facebook研发):高性能向量搜索库,支持亿级数据。
-
-
应用场景:大模型的长期记忆存储(如用户历史对话)、私有知识库构建。
3. LangChain编程框架
-
定位:连接大模型与外部工具(如数据库、API)的"胶水框架"。
-
六大组件:
-
Model:集成OpenAI、HuggingFace等模型。
-
Prompt:优化提示词(如Few-shot Learning模板)。
-
Memory:保存对话历史(通过向量数据库)。
-
Index:处理PDF/HTML等非结构化数据。
-
Chain:组合多个步骤(如先检索知识再生成回答)。
-
Agent:让模型自主调用工具(如计算器、搜索引擎)。
-
-
典型应用:构建带知识库的客服机器人、自动化工作流。
4. 本地部署开源模型
-
模型选择:
-
小模型(如ChatGLM-6B、BLOOM-7B):适合消费级GPU(如RTX 3090)部署。
-
大模型(如LLaMA-2-70B):需专业级硬件(如A100集群)。
-
-
部署建议:
-
云方案:AWS SageMaker、阿里云PAI,按需付费。
-
本地部署:需考虑显存(如6B模型约需12GB显存)、量化技术(降低精度节省资源)。
-
5. 机器学习基础
-
四类算法:
-
分类:逻辑回归、SVM(如垃圾邮件识别)。
-
回归:线性回归(预测房价)。
-
聚类:K-Means(用户分群)。
-
降维:PCA(可视化高维数据)。
-
-
模型评估:
-
交叉验证:防止数据划分偏差。
-
过拟合:模型在训练集表现好但测试集差(解决方案:正则化、早停)。
-
6. 深度学习基础
-
经典网络:
-
CNN:处理图像(卷积核提取局部特征)。
-
RNN:处理序列(如时间序列预测),但存在梯度消失问题。
-
-
Transformer:
-
Self-Attention:计算词与词的相关性(如"it"指代"cat"还是"dog")。
-
基石地位:GPT、BERT均基于此架构。
-
7. NLP基础知识
-
技术演进:
-
TF-IDF:统计词频(传统搜索引擎)。
-
Word2Vec:词向量("国王-男人+女人≈女王")。
-
BERT:上下文相关词向量("bank"在河道或金融场景含义不同)。
-
-
NLU vs NLG:
-
NLU(理解):如情感分析、实体识别。
-
NLG(生成):如写诗、摘要。
-
8. 大语言模型架构
-
三大类型:
-
编码器-解码器(如T5):适合翻译任务。
-
纯解码器(如GPT):自回归生成文本。
-
纯编码器(如BERT):适合分类任务。
-
-
趋势:GPT类生成式模型当前主导地位。
9. 开源模型高阶技术
-
PEFT(参数高效微调):
-
LoRA:仅训练低秩矩阵,节省显存。
-
Adapter:插入小型网络模块。
-
-
RLHF(强化学习对齐人类偏好):ChatGPT的核心技术之一。
-
模型压缩:
-
量化:FP32 → INT8(损失少量精度)。
-
蒸馏:大模型指导小模型(如DistilBERT)。
-