李宏毅机器学习(六)自监督学习(一)

学习内容

前情提要

BERT与芝麻街

这些都是BERT的组件

BERT与进击的巨人

BERT(340 M 参数)
ELMO(94M)
GPT-2(1542M)
Megatron(8B)
T5(11B)
Turing NLG(17 billion)
GPT-3(170 billion)

Bert的基本知识

前提

监督学习: 有标签
自监督学习:由于没有标签,我们需要将文章的某一部分作为特征,另一部分作为标签,使得特征经过模型后和标签距离更近;
无监督学习: 就是没有标签喽!

Masking Input

BERT就是输入一些字符,输出一些字符;
Mask Input有两种:第一种是盖住; 第二种是替换;
但是在输出结果后还是要和GT标签计算距离!

Next sentence Prediction (观察两个数据是相连还是不相连)

方法:
输入两个句子,输出vector
sep: 两个句子的分隔符;
CLS: 输出这两个句子是不是相连接的,连接 = True; 不连接=Flase;

评价:
没有用,这个Next sentence Prediction是没用的

其它:
SOP: sentence order prediction
Used in ALBERT

那Bert有什么用? 填空题?

其它应用?

下游任务! 我们需要Bert进行pre-train,类似胚胎干细胞,fine-tune成不同的Model

GLUE

判断一个模型好与不好,需要在公开模型中判断,GLUE就是一个标杆;
GLUE中包含了各种数据集,从而测试不同模型的不同的性能。下图中是各个子任务达到的SOTA和人类能力的比对。

实例

Case 1: 情感分析

图片1
线性层是需要随机初始化的! 而BERT是预训练的模型(会做填空题的BERT), CLS输出该句子的情感。
随机初始化的效果要差!

Case 2:POS(词性标注) 输入一个句子输出一样长度的句子

图片2
这里的CLS就没啥用了,因为我们输出的是三个

Case3: NLI(自然语言逻辑判断)

查看两句话的逻辑是否相通,能否通过前提推出假设! 是不是矛盾的!
图片3
用在哪? 比如论文和某个人的评论,到底是合理的还是不合理的!
输入两个句子,输出CLS

Case4: QA(问答系统)

让机器读后,你提出问题,让他给你一个答案!
题目: 图片1
怎么使用BERT: 图片2
你唯一需要训练的向量就是两个随机初始化的向量,这两个向量的大小和BERT的产出向量是同样大小到 !怎么使用这两个向量呢? 我们先用橙色的向量与右边的文件向量做Inner Product,查看和document哪个单词的内积更高,那么s 就等于几; 蓝色的同理,代表了答案结束的向量,d就等于几。答案= s - d
问题1: 输入长度有限制吗?
答: 长度不是无限长的

问题2: 和填空题的区别
答:

训练Bert 是很困难的

需要3billions单词, 3000倍哈利波特。
Google的ALBERT;

Bert Embryology 胚胎学

Bert增强= MASS/BART

将Encoder的输入弄坏!也就是添加Mask,旋转等 ; 而Decoder需要还原Encoder弄坏的单词;

T5-Comparison

有这么多弄坏的方法,哪些更好呢? 谷歌T5已经做了! 它是在C4(公开资料集 7T )上计算的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/476264.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 717. 1比特与2比特字符

1. 题目 有两种特殊字符。第一种字符可以用一比特0来表示。第二种字符可以用两比特(10 或 11)来表示。 现给一个由若干比特组成的字符串。 问最后一个字符是否必定为一个一比特字符。 给定的字符串总是由0结束。 示例 1: 输入: bits [1, 0, 0] 输出: True 解释: 唯一的编…

制作多系统启动盘教程_制作U盘启动盘教程

制作 U 盘启动盘图文教程 在笔记本电脑早已普及到会议室的这个年代,商务人士拿笔记本来演示 PPT 以及做电子版 的会议记录;在笔记本电脑已经普及到教室的这个年代,学生们甚至在用笔记本翻阅资料 进行开卷考试。随着笔记本电脑正在成为人们生活…

移动设备应用程序开发入门一:创建用于设备的 Windows 窗体应用程序并打包进行部署...

目标:了解如何使用 Visual C# 创建一个简单的 Hello World 应用程序,该应用程序可在 Pocket PC 上运行。 了解如何为应用程序创建随后可部署到智能设备上的 .cab 文件。 创建使用 Windows 窗体的设备项目 (Visual C#) 在 Visual Studio 中的“文件”菜单…

论文阅读笔记(五)【ACL 2021】Answering Ambiguous Questions through Generative Evidence Fusion and Round-Trip P

通过生成性证据融合和往返预测回答模糊问题 关键词: 生成性证据融合; 往返预测; 模糊问题 摘要 一般的开放域QA问题: 在开放域问答中,问题很可能是模棱两可的,因为用户在制定问题时可能不知道相关主题的…

c语言不会可以学好java吗_不会C语言能学Java吗

不会C语言能学Java吗?当然可以,学码思不少小伙伴没有任何代码基础,来这里Java培训学的也非常不错,都获得了理想的就业。现在时代不一样了,编程语言更新换代的速度也很快,很多老程序员都是从C语言入门&#…

ie下滚动条样式设置

项目中需要配置滚动条的样式,故做了如下小程序协助配置:这个是示例这个是示例这个是示例这个是示例这个是示例这个是示例这个是示例这个是示例这个是示例立体滚动条亮边的颜色:滚动条空白部分的颜色:立体滚动条凸出部分的颜色&…

李宏毅机器学习(七)自监督学习(二)BERT奇闻轶事

WHY does BERT work? BERT会考虑上下文! 进行Word Embedding!将一个单词表示成向量,比如苹果单词中的“果”和苹果公司中的“果”,在经过Embedding后虽然同样是同一个词,但是由于上下文不同,所…

vue 组件第一次不渲染问题_vue使用组件不渲染 只有代码变了才渲染

这个组件是一个chartimport { Line } from vue-chartjs;export default {extends: Line,mounted () {this.renderChart({labels: [January, February, March, April, May, June, July],datasets: [{label: success,backgroundColor: #FC2525,fill: transparent,data: [40, 39, …

LeetCode 747. 至少是其他数字两倍的最大数

1. 题目 在一个给定的数组nums中,总是存在一个最大元素 。 查找数组中的最大元素是否至少是数组中每个其他数字的两倍。 如果是,则返回最大元素的索引,否则返回-1。 示例 1: 输入: nums [3, 6, 1, 0] 输出: 1 解释: 6是最大的整数, 对于…

主从表主键外键

A表的主键在B表中充当外键,谁是主表,谁是子表? A为主表B为从表 个人认为: 外键是约束的一种。不存在主从关系,只存在引用关系,如部门表与员工表。每个员工都属于某个部门,必须与某个部门资料对应…

简单循迹小车实验心得_红外自动循迹小车实验报告

红外自动循迹小车实验报告 1摘要 本实验完成采用红外反射式传感器的自寻迹小车的设计与实现。采用与白色地面色差很大的黑色 路线引导小车按照既定路线前进,在意外偏离引导线的情况下自动回位,并能显示小车停止的时间。 本设计采用单片机STC89C51作为小车…

李宏毅机器学习(七)GPT的野望

前情提要 前面我们有说,BERT做的是什么? Bert做的是填空题! GPT做的是什么? 做的是预测接下来要出现的Token是什么? 它里面的结构有点像Transformer中的Decoder GPT最有名的就是生成了一个关于独角兽的假新闻&#xf…

LeetCode 885. 螺旋矩阵 III

1. 题目 在 R 行 C 列的矩阵上,我们从 (r0, c0) 面朝东面开始 这里,网格的西北角位于第一行第一列,网格的东南角位于最后一行最后一列。 现在,我们以顺时针按螺旋状行走,访问此网格中的每个位置。 每当我们移动到网…

忆阻器的matlab建模_忆阻器Simulink建模和图形用户界面设计.PDF

忆阻器Simulink建模和图形用户界面设计( )第 卷第 期 西 南 大 学 学报 自然科学版 年 月33 9 2011 9( )Vol.33 No.9 JournalofSouthwestUniversit NaturalScienceEdition Se. 2011y p文章编号: ( )1673 9868201109 0050 07忆阻器Simulink建模和图形用户界面设计①胡柏林, 王丽…

李宏毅机器学习(八)自编码器(Auto-encoder)

前情提要 什么自监督学习? 做不需要标注资料的任务,比如做填空题,比如预测下一个任务! 这个时候我们只需要对在自监督中训练的模型进行fine-tune就可以用在下游任务中了! 但是在不需要标注的数据之前呢,在…

LeetCode 406. 根据身高重建队列(排序)

1. 题目 假设有打乱顺序的一群人站成一个队列。 每个人由一个整数对(h, k)表示,其中h是这个人的身高,k是排在这个人前面且身高大于或等于h的人数。 编写一个算法来重建这个队列。 注意: 总人数少于1100人。示例 输入: [[7,0], [4,4], [7,1]…

sql2000 版本号

SQL Server 2000 原始版本 8.00.194 RTM Database Components SP1 8.00.384 SP1 Database Components SP2 8.00.534 SP2 Database Components SP3、SP3a 或 MSDE 2000 Release A 8.00.760 SP3 Database Components SP4 8.00.2039 SP4.转载于:https:/…

iphone和mac互传文件_在mac和iphone之间传文件夹那么难吗

一直听说苹果几件套多么好用,工作生活资料文件可以多无缝衔接等等,买了手机后几乎没什么时间研究,对于苹果的生态圈还是有些陌生和不习惯,目前来说我感觉最方便的一个功能是隔空传送,比如在家里,大涛哥要给…

LeetCode LCP 11. 期望个数统计

1. 题目 某互联网公司一年一度的春招开始了,一共有 n 名面试者入选。 每名面试者都会提交一份简历,公司会根据提供的简历资料产生一个预估的能力值,数值越大代表越有可能通过面试。 小 A 和小 B 负责审核面试者,他们均有所有面试…

李宏毅机器学习(七)Bert and its family

技术前瞻 在预训练模型上训练Bert,并在我们的数据上fine-tune所需要的模型! 就像学习英文一样! 应该是通读英文文章后再去做题,而不是先做题再读懂文章! Pre-train Model Embedding 刚开始是 Word2Vertor&#xff0…