还是培训资料中的内容,重读一遍。
     列举内容,尝试理解的多那么一点点。
1. 生成式AI
- 生成式AI定义
 - Generative AI, GenAI
 - 一种人工智能技术
 - 对已经数据分类、预测
 - 生成新的内容,包括文本、图像、音频、视频
 - 由大量数据语料库预训练大模型提供动力(基础模型,Foundation Model, FM)
 - 通过深度学习模型实现
 参考:
 生成式AI的历史和发展(关键技术) - 知乎
 人工智能发展史(上) - 知乎
 人工智能发展史(下) - 知乎
- 生成式AI相关
 - 人工智能,AI,允许计算机使用逻辑、if-then语句以及机器学习来模仿人类智能的技术
 - 机器学习,ML,人工智能的子集,利用机器搜索数据中的模式来自动建立逻辑模型
 - 深度学习,DL,由深度多层神经网络组成的机器学习的子集,执行语音和图像识别任务
 - 生成式人工智能
- 生成式AI模型活动
 - 未标记数据 -> 预训练 -> 基础模型 -> 适配 -> 常规任务:文本生成、文字摘要、信息提取、图像生成、聊天机器人、问题回复答
 - 预训练
 - 模型微调
 - 提示词工程
- 生成式AI基础模型 -- 陌生领域。。。后续补充
 - GPT,generative pre-trained transformer,生成式预训练transformer,基于transformer的生成式语言模型,可以生成逼真的文本
 - GAN,generative adversarial network,生成式对抗网络,包含了生成器和判断器的对抗网络,可以生成逼真的图像
 - VAE,variatonal autoencoder,变分自动编码器,基于概率编码的生成模型,可以学习数据的潜在分布,并从中采样生成新数据,在无监督学习中广泛应用
 - 自动编码器,autoencoder,无监督神经网络,通过学习如何有效压缩和解压数据来得到数据的潜在表示,用于生成图像、文本
 - WaveNet,生成原始音频波形的神经网络,生成人类语言
 - DALL-E,openAI研发的一种基于GPT和CLIP的图像生成模型
 - AlphaFold,deepMind开发的蛋白质结构预测生成模型
 - 多模态模型
- 生成式AI特点
 - 基础模型包含大量参数,能够掌握复杂规律
 - 具有超强的泛化能力,在文泛的上下文中运用知识
 - 支持自定义,使用企业内部数据,执行特定域的功能
 - 具有一定创造力
 因此生成式AI
 - 体验,创造产品与客户互动的全新、吸引人的、创新方式
 - 效率,从根本上提高业务效率
 - 总结,从企业信息中提取见解和答案,快速做出决策
 - 创新,经由训练和提示,创作新内容和新想法
- 生成式AI参与者
 - LLM,Large Language Model,大型语言模型,具有数十亿参数 (B+) 的预训练语言模型 (GPT-3, Bloom, LLaMa, GLM);用于各种自然语言处理任务,如文 本生成、机器翻译和自然语言理解等。
 - P. Model Provider,从零开始预训练大型模型 (FM, LLM),供下游使用。专注于训练具有超过上亿级别参数的Transformer和 Diffusion模型,如 (GPT 类,Stable Diffusion, Bloom, XLNet, LLaMa, OPT, GLM, etc.)
 - T. Model Tuner,从Model Providers 购买预训练模型或者使用开源模型 (LLM, FM) 并进行个性化定制 (Fine-Tune),结合特定行业或者细化市场为最终用户构建产品和解决方案,通常是 SaaS 类服务
 - C. Model Consumer,直接使用预训练的模型 (LLM, FM, Fine-Tune model) 提升 Application 的使用体验,提升业务价值。不对模型本身进行训练和定制,而是选择现成的AI产品或者模型。
- LLM,大语言模型 -- 陌生领域。。。后续补充
2. 生成式AI核心
- Transformer
 - 转换器
 - 一种神经网络架构
 - 用于机器翻译等自然语言处理任务
 - 设计之初用来解决机器翻译问题
 - 由一个输入序列转换成一个输出序列
 - 理论上能够接受任意长度的句子输入
- Attention
 - 专注机制
 - 计算权重
 - Transformer架构中的核心组件
 - 生成阶段,让模型能够关注到输入序列中最相关的部分
 - 对token在上下文中的语义做编码,分别计算每个token对句子中的其他token的权重表示
 - Self-Attention ???
 - Encoder-Decoder Atttention ???
3. 生成式AI存在的问题
- 生成式AI产生的内容引发的 著作权 和 知识产权问题
- 安全问题
 - 提示词注入 ???
 - 数据泄露
 - 不完善的沙盒隔离
 - 非授权代码执行
 - SSRF漏洞 ???
 - 过度依赖LLM生成内容
 - 未充分对齐 ???
 - 访问控制不足
 - 错误处置不当
 - 训练数据投毒
- 数据操纵
 - 恶意用户深度通过操作数据输入,干扰AI模型的输出
 * 通过数据验证,确保输入数据的完整性和真实性
 * 用户身份验证,防止恶意用户干扰
 - 生成式AI输出可信度不足
 * 输出验证,评估生成内容可信度
 * 用户反馈,改进输出质量
- 恶意使用
 - 提示注入,误导 -> 对提示方法、敏感词进行过滤
 - 提示泄露,挖坑、诱导性提示,导至敏感、安全信息泄露
 - 越狱 ???,利用漏洞,非法访问
4. 遗留问题
- LSTM
- Word Embedding
- Self-Attention ???
- Encoder-Decoder Atttention ???
- 生成式AI模型分类
- 生成式AI带来的安全问题