大模型笔记：Prompt tuning

1 NLP模型的几个阶段

用一个固定的结构预训练一个语言模型（language model, LM）
- 预训练的方式就是让模型补全上下文（比如完形填空）
- 预训练不需要专家知识，因此可以在网络上搜集的大规模文本上直接进行训练
这一阶段的一个研究方向是目标工程（objective engineering）
- 为预训练任务和微调任务设计更好的目标函数
- 让下游任务的目标与预训练的目标对齐是有利的
- 几种经典预训练任务
  - Masked Language Modeling（MLM）
    - 随机选取一个固定长度的词袋区间，然后挖掉中心部分的词，让模型预测该位置的词
  - Next Sentence Prediction（NSP）
    - 给定两个句子，来判断他们之间的关系
    - 存在三种关系
      - entailment（isNext）
        紧相邻的两个句子
      - contradiction（isNotNext）
        这两个句子不存在前后关系，例如两个句子来自于不同的文章
      - Neutral
        中性关系，当前的两个句子可能来自于同一篇文章，但是不属于isNext关系的

给定一个句子

[CLS] I like the Disney films very much. [SEP]

传统的Fine-tuning方法
- 通过BERT的Transformer获得 [CLS]表征
- 之后再喂入新增加的MLP分类器进行二分类，预测该句子是积极的（positive）还是消极的（negative）
- 需要一定量的训练数据来训练
Prompt-Tuning
- 构建模板（Template Construction）
  - 通过人工定义、自动搜索、文本生成等方法，生成与给定句子相关的一个含有[MASK]标记的模板
  - 拼接到原始的文本中，获得Prompt-Tuning的输入
    - [CLS] I like the Disney films very much. [SEP] It was [MASK]. [SEP]
  - 将其喂入BERT模型中，并复用预训练好的MLM分类器，即可直接得到[MASK]预测的各个token的概率分布
- 标签词映射（Label Word Verbalizer）
  - 因为[MASK]部分我们只对部分词感兴趣【比如 positive/negative】
  - ——>需要建立一个映射关系
    - 如果[MASK]预测的词是“great”，则认为是positive类
    - 如果是“terrible”，则认为是negative类
- 训练
  - 只对预训练好的MLM head进行微调

《Exploiting Cloze Questions for Few Shot Text Classification and Natural Language Inference》（EACL2021）

3.1.1 Pattern（Template）

3.1.2 Verbalizer

记作V ，即标签词的映射，对于具体的分类任务，需要选择指定的标签词（label word）。
例如情感分析中，期望Verbalizer可能是
- V(positive)=great; V(negative)=terrible
- （positive和negative是类标签）
如何构建Verbalizer是另一个研究挑战 。

上述两个组件被称为Pattern-Verbalizer-Pair（PVP），一般记作P=(T,V)

在给定的某个Pattern下，并非只有1个词可以作为label word。
- 例如positive类，则可以选择“great”、“nice”、“wonderful”。当模型预测出这三个词时，均可以判定为positive类。
在训练和推理时，可以对所有label word的预测概率进行加权或投票处理，并最后获得概率最大的类

离散的模板构建 Hard Prompt	启发式法（Heuristic-based Template）	通过规则、启发式搜索等方法构建合适的模板
离散的模板构建 Hard Prompt	生成（Generation）	根据给定的任务训练数据（通常是小样本场景），生成出合适的模板
连续的模板构建 Soft Template	词向量微调（Word Embedding）	显式地定义离散字符的模板，但在训练时这些模板字符的词向量参与梯度下降初始定义的离散字符用于作为向量的初始化
连续的模板构建 Soft Template	伪标记（Pseudo Token）	不显式地定义离散的模板，而是将模板作为可训练的参数

The Power of Scale for Parameter-Efficient Prompt Tuning, EMNLP 2021

记Y是LLM的输出，X是输入token，θ是Transformer的权重参数
- NLP中的文本生成任务可以表示为 $P_\theta(Y|X)$
之前的hard Prompting在生成 Y 时向模型添加额外信息以作为条件:
- 这一过程可以表示为 $P_\theta(Y|[P;X])$
- 也就是将prompt的语句和输入token 连接在一起，输入给pre-train 模型，在pre-train 模型中，用它的参数生成 embedding，经过一系列的流程得到对应的输出
soft prompt/prompt tuning 使用一组特殊Token作为prompt
- 给定一系列 n 个Token，
  - 第一步是将这些Token向量化，形成一个矩阵
    - 【使用pre-train 模型的参数】
    - （e是向量空间的维度）
  - soft prompt以参数的形式表示
    - （p是prompt的长度）
  - 将prompt与向量化后的输入连接起来，形成一个整体矩阵 $[P_e;X_e] \in R^{(p+n) \times e}$
  - 该矩阵接着正常地通过编码器-解码器流动
  - 模型旨在最大化 $P_{\theta,\theta_P}(Y|[P_e;X_e])$ 的概率，但仅更新prompt参数θP