第七讲自监督学习self-supervised learning
常见的自监督模型大小:BERT<GPT<SWITCH
监督学习(supervised learning):有标签
自监督学习(self-supervised learning):没标签(属于无监督学习的一种类型)

自监督学习的原理是初始资料X分为X1、X2将X2输入model,输出Y,让Y 尽可能接近X1
一.BERT模型
常用于自然语言处理。
输入一排向量->输出一排向量(输入长度=输出长度)
训练BERT:
BERT学如下的两个任务
1,方法一:Masking Input

Masking Input 原理:随机选一个词盖住,盖住的方法有利用特殊符号代替、选择随机词汇代替遮住的词
将输入句子经过BERT模型,再经过Linear层softmax层,最小化输出结果和真实值的交叉熵
2.方法二:Next Sentence prediction 这个方法不常用,效果不好因为判断句子是否相连这个问题太简单!

BERT使用:

得到BERT的方法是pre-train(又称为self-supervised learning)
BERT经过微调fine- tune解决下游任务

上诉9个方法用于检测大模型的好坏,例如:将BERT微调后生成9个模型运行在上面的9个任务,评估模型好坏
这个评估的任务组称为GLUE
BERT使用案例:
1.

Linear层和BERT层都是使用梯度下降法更新参数
参数初始化:
Linear层利用随机初始化
BERT层利用之前训练好的参数初始化(就是可以预测遮住词汇的那个BERT或相接句子的那个BERT(这种任务类似于做填空题)),这种初始化优于随机初始化。
综上:利用BERT解决问题可以看作是半监督学习,训练BERT模型时是自监督学习(训练方法:预测遮住词汇的那个BERT或相接句子的那个BERT),微调BERT运用在下游任务上(监督学习)

前提premise->假设hypothesis
BERT做填空题不用自己训练(就是判断遮住词汇是什么的能力或者句子是否相接这件事情)耗时长

BERT是deep的word embedding,中间挖空用上下文推导那一个空。
多语言 BERT 模型跨语言对齐性能(MRR 指标)分析
多语言BERT模型:

差值=中文平均-英文平均
实现英文输入翻译后生成中文输出,做法是经过BERT后+差值。
BERT就是做填空题。