weka分类器怎么设置样本类别_【程序喵笔记】小样本学习1.0

小样本学习

前几天接触小样本学习 Few-Shot Learning，感觉很是有意思。看到Shusen Wang老师的讲解，感觉很棒~持续学习~

学会学习 Lean to learn

小朋友去动物园，见到未知的动物，他虽然不知道类别，但是给他看一些卡片，让他比比看哪个长得像，他们很快的判断出所见动物的类别，这就是人类的学习。

如果机器也可以学习呢？给一张图片(Query)，这张图训练集并没有出现啊，但是不要慌，有卡片(Support Set)来让模型做选择题，依次比较相似度。学会完成多选一的选择题就是元学习(Meta Learning)需要学到的模型，也就是让机器学会学习。

训练集样本大，机器根据训练集中的图片，并泛化到测试集，给出图片，识别出具体的类别。

小样本直接训练神经网络会产生过拟合。小样本学习是元学习(Meta Learning) 的一种，希望模型学会学习，并不是让模型区分训练集未出现的新样本，而是是让机器学会学习事物的异同，给定图片，判断是否为同一类别。

(1)k-way n-shot Support Set

k-way: support set 中类别数n-shot: 每一类的样本数

很明显，way越大，选择变多，准确率会下降，shot越大，样本数增多，准确率会增加。

(2)余弦相似度

衡量两个向量之间的的相似度，两个向量分别为x和w，他们的二范数(长度)为1，两向量的内积为余弦相似度，可以理解为x在w上投影的长度

如果两个向量长度不一致，需要将两向量归一化，取内积：

(3)softmax

softmax函数是常见激活函数，将向量映射为概率分布，常作为网络最后一层，输出的每个概率值表示对每个类别的Confidence(置信度)。让大的值变大，小的值变小，也就平和一点的max。

softmax 分类器，输入为特征值(全连接层输出的)，输出为k维(k是类别数)的概率，W和b维参数，反向传播会训练。

(1)Omniglot

(2)Mini-ImageNet

Matching Networks for One Shot Learning(MAML)论文中提出，从ImageNet提取100类，每个类别600样本，样本尺寸为84*84
训练集：64类，38400个样本
验证集：16类，9600个样本
测试集：20类，1200个样本

网上只有从ImagNet上的原图和CSV文件，我按照MAML的方法生成的数据集，并上传到网盘：

链接：https://pan.baidu.com/s/1nt2WTIXM-bx3s0s51_v_eg 提取码：obg7

预训练：从大规模数据集中训练一个卷积神经网络f来提取图像特征。可以是分类网络去掉全连接层，也可以使用孪生网络(Siamese Network)。
小样本预测 ：将query和support set 中每个样本映射到特征空间，得到特征，依次比较query和support set中每个特征的相似度( Similarity)，进行判定。但是更常用的方法是用support set训练一个分类器，再进行预测，称为Fine Tuning。