few shot learnning笔记

课程地址 https://youtu.be/hE7eGew4eeg?si=KBM0lY7eY_AdD8Wr
PPT地址 https://github.com/wangshusen/DeepLearning
第一节 Few-Shot Learning Basics
第二节 Siamese Network
第三节 Pretraining + Fine Tuning

（以图像识别举例）

基础

support set：数量很少的样本集合，为模型完成任务而提供更多的信息。
query：模型的输入样本，其并未出现在训练集中，其所属类别肯定包含在支持集中。

小样本学习（few shot learnning）是一种元学习（meta learning）方法。
元学习：自己学会学习（learn to learn）。

监督学习：测试样本之前并未见过（这个样本并不在训练集中），样本属于已知类（这个类别在训练集中有）。
小样本学习：查询样本之前并未见过，样本属于未知类。

k-way：支撑集有k类，k越大预测准确率越低。
n-shot：每个类别有n个样本，n越大预测准确率越高。
称呼支持集时，带上前缀k-way n-shot support set。

小样本学习的基本思想：学习一个相似度函数（similarity function）。
1、用一个很大的训练集学习一个相似度函数。
2、给定一个query样本，用相似度函数与support set判断出其所属类别（计算support set中的样本与query样本的相似度，取相似度最高的类别作为预测）

下面介绍两种方法：连体网络，预训练+微调。

siamese network（连体网络，孪生网络）

将训练集 $D=\{I_1, ..., I_n\}$ 重新构造为包含同样数量的正样本与负样本的新训练集。
正样本： $I_i, I_j)$ ，两张图像属于同一类，其标签为1。
负样本： $I_i, I_j)$ ，两张图像属于不同类，其标签为0。

给卷积神经网络 $f(\cdot)$ 输入正样本，其输出为输入的特征：
$h_i = f(I_i)$
$h_j = f(I_j)$
$z_{ij} = |h_i - h_j|$
将 $z_{ij}$ 输入至全连接层，得到一个标量，预测两个图片间的相似度，其中激活函数用sigmoid，输出区间为 $[0, 1]$ 。
注： $h, z$ 为向量

计算样本的标签与预测值的损失函数，反向传播更新卷积网络与全连接网络的权重。

预测：
将支持集中的所有样本分别与query构造成一对新样本 $q,s_i)$ 输入给网络，预测两者相似度。
选出相似度最高的一对样本 $q,s_j)$ ，query便属于 $s_j$ 的类别。

triplet loss

这是另一种训练卷积神经网络的方法。

训练集中随机抽样作为一个anchor（锚点）。
从achor所属的类别中随机抽样一个样本，记为正样本。
再从除achor所属的类别外的剩余训练集中随机抽样一个样本，记为负样本。

三个样本同时输入卷积网络：
$f(x^+), f(x^a), f(x^-)$
计算特征间的距离：
$d^+ = |f(x^+ - f(x^a))|_2$
$d^- = |f(x^- - f(x^a))|_2$
注： $d$ 为标量

计算损失函数：
如果 $d^- \geq d^+ + \alpha$ ，则 $l oss = 0$ ；否则 $loss=d^+ + \alpha - d^-$ 。
其中， $\alpha > 0$ 。
注：上述就是max函数。
补充：卷积神经网络将图片映射为特征空间中的一点

通过损失函数，训练出卷积网络 $f(\cdot)$ 。

预测：
通过 $f(\cdot)$ 计算query与所有支持集样本的特征，然后计算出query与所有支持集样本的距离 $d(q,s_i)$ 。
选出距离最近的一对样本 $q,s_j)$ ，query便属于 $s_j$ 的类别。

预训练与微调

两个向量的cosine similarity： $\theta = x^Tw/(|x|_2 \cdot |w|_2)$ 。
如果 $x, w$ 为单位向量，则 $\theta = x^Tw$ ，即相似度为两个单位向量内积。
单位向量内积较大表示，一个向量在另一个向量上的投影较大。

softmax函数：将向量 $\phi$ 映射为一个概率分布 $p$ 。
$p_i > 0, \Sigma_i p_i = 1$ .

预训练（pretraining）一个卷积网络用于特征提取。
注：特征提取也称embeding。

（以3-way 2-shot support set举例）
支撑集每个类别的特征向量为该类所有样本的特征向量求平均，再进行归一化，得到 $\mu_1, \mu_2, \mu_3$ 。
同理，对query也做同样的步骤，得到 $q$

矩阵 $\begin{bmatrix} \mu_1 \\ \mu_2 \\ \mu_3\end{bmatrix}$

计算一个三维向量 $p = so f t ma x (Mq)$
$p$ 中最大元素为 $p_i$ ，则 $q$ 属于支持集中的 $i$ 类

微调

在卷积网络后面接一层全连接： $\cdot f(x) + b)$

之前不进行微调，即 $W = M, b = 0$ ，而学习 $W, b$ 称为微调。

损失函数： $l oss = corss E n t ro p y (y, p)$
其中， $y$ 为真实标签，是一个one hot向量。
反向传播，训练出 $W, b$

介绍三个小技巧：
1、初始化权重 $W = M, b = 0$
2、为防止过拟合，加入正则化。（下面介绍熵正则化）
一个query预测结果为 $\cdot f(x) + b)$
熵 $H(p)=-\Sigma_i p_i log(p_i)$
熵正则化为所有query的熵的平均。
我们希望熵正则化越小越好。
3、结合余弦相似度与softmax分类器，即先将 $W$ 的行向量与 $f (x)$ 作归一化，再计算矩阵向量乘积。
$\cdot f(x) + b)$