李宏毅机器学习(三)Word Embedding

学习内容

前情提要

使用一个vector来表示一个word,怎么做?

1-of-N Encoding
维度就是所有单词的量
缺点: dog 和 cat是不能归为一类的,只能单独的表示;

Word CLass
将同类别的归为一类; 但是更高层的token表示不清. 比如dog + flower = creature
Word Embedding
将word映射到高维度上,通常有50维度、100维度这个样子的dimension; 但是也比-of-N Encoding维度少的多,这是dimension reduce的化身。 类似语义的在这个图上相同位置,而且不同语义中有不同的维度,dimension也会有不同的语义。

Word Emedding

方法

这是一个无监督问题; 机器需要通过读大量的文件学习单词的意思。 而且我们只知道它的输入,不知道它的输出(多少维度的word)。

所以应该怎么做? 我们可以通过上下文来获得,比如马英九和蔡英文通过这样句子的分析,都是上下文类似的,那么必然都是同一种物件。

**所以怎么用这种思维来通过word embedding来表示vector呢?** 有两种方法:

Count based

两个单词越近越好; wiw_iwiwjw_jwj是两个单词,而V(wi)V(w_i)V(wi)是它的向量表示;

Predition based

学习一个neural network来预测下一个单词是某个word的几率。
输出是所有的words的概率!输入和输出都是lexicon words (因为都是1-of-N-encoding)
我们选取hidden layer中的一层就可以表示它的向量了。 为什么用这个prediction based的方法呢?

比如,下面的句子:我们输入蔡英文和马英九那, 我们希望他输出的“宣誓就职”的概率比较大,如果要完成这样的效果那么必须蔡英文和马英九两个的vector应该类似。

Predition based-sharing parameters

当然我们输出下一个单词的概率,输入不能是一个单词,最起码应该是两个或者十个;
其次我们在同时输入两个单词时,他们的权重应该都是共享的。 为什么呢?
如果我们不这么做,两个单词换个位置(比如apple: 00001 换成 10000),那么得到的embedding就会不一样哦! 其次是多个单词不用再用很长的权重维数了;

**但是在训练的时候,我们怎么保证两者的weight是一样的呢? 怎么更新呢?**
上面的肯定不行,而是下面的

问题:propose word vector ,但是neural network不是deep network,而是普通的hidden layer?
tookit他做的很好;
hidden layer运算量少! 可以训练很多的data;

推论

相减

这就是假想的意义!

Multi-lingual Embedding

多语言的嵌入网络,必须输入的是英文和中文的材料。

Multi-domain embedding

就是将类似的图片映射到同一领域

Document embedding

将Document变成bag-of-word,然后使用auto-encoder就可以learn出这个document的Semantic Embedding; 但是呢这样是不够的,只用这个word来表示document是不够的,为什么呢?
因为词汇的顺序有很重要的信息。
比如下面的两句话,它们的bag-of-word是一样的,因为相同的单词;但是他们的语义却完全不同。

bag - of -word: 就是只是单独考虑一个单词的意思,所以说是布袋里的单词,都是孤零零的!

Beyond bag of word

下面是有监督的,上面的是无监督的

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/476282.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IBM T61 键盘没有反映。

出现这个问题不是一次两次了,就是启动后,键盘所有按键,小红帽都不能用,必须重启好几次才能用。 有时候键盘能用,但是打开 dw ,复制不能用,真是懊恼。 今天又出现这个情况,我偶然想到是不是和昨天…

LeetCode 680. 验证回文字符串 Ⅱ

1. 题目 给定一个非空字符串 s,最多删除一个字符。判断是否能成为回文字符串。 示例 1: 输入: "aba" 输出: True示例 2: 输入: "abca" 输出: True 解释: 你可以删除c字符。 注意: 字符串只包含从 a-z 的小写字母。字符串的最大长度是50000。来…

python的序列类型及其特点_Fluent Python 笔记——序列类型及其丰富的操作

序列的分类Python 标准库用 C 语言实现了丰富的序列类型的数据结构,如:容器序列(能存放不同类型的数据):list、tuple、collections.deque 等扁平序列(只容纳同一类型的数据):str、bytes、bytearray、memoryview、array.array>&…

论文阅读翻译(全)【一直更新】

学习内容 这里面包含了阅读中翻译的概述! CNN is not invariant to scaling and rotation; invariant: 不变的; not invariant: 不是不变的 CNN是变化的! 不和不消除! 1. 词语 1.1 词形 泛…

精选15个国外CSS框架

下面一起来了解一下各种不同的CSS框架吧: 1.960 Grid System 960网格系统是一个通过提供通常使用的尺寸简化网站开发流程的努力的结果,基于960像素的页面宽度。它有两种类型,12和16列,他们可以独立使用或是协同使用。 2.WYMstyle CSS Framewo…

LeetCode 682. 棒球比赛

1. 题目 你现在是棒球比赛记录员。 给定一个字符串列表,每个字符串可以是以下四种类型之一: 1.整数(一轮的得分):直接表示您在本轮中获得的积分数。 2. ""(一轮的得分):…

Lighttpd 的安装配置(web服务器软件)

Lighttpd 的安装配置2006-07-16 01:06lighttpd(http://lighttpd.net/)和apache一样是开源的,与apache相比,虽然功能不及apache完善,稳定性也不如apache,但是,不管是服务静态页面,还是服务动态内容(CGI&…

苹果企业证书_IOS福利9月15日苹果企业证书已更新!重新下载即可!

(视频素材来源于网上)支持系统:苹果上一期你可能错过的:全网短视频免费去水印,还支持解析VIP影视!最近众号修改推送的机制,请大家一定要把公众号:玩转网络科技,设置成“星标⭐”,再点…

LeetCode 697. 数组的度

1. 题目 给定一个非空且只包含非负数的整数数组 nums 数组的度的定义是指数组里任一元素出现频数的最大值 你的任务是找到与 nums 拥有相同大小的度的最短连续子数组,返回其长度。 示例 1: 输入: [1, 2, 2, 3, 1] 输出: 2 解释: 输入数组的度是2,因为…

李宏毅机器学习(四)Spatial Transformer Layer

学习内容 架构; 目的就是克服CNN的旋转和缩放不变性的缺点的! 前情提要 CNN is not invariant to scaling and rotation; CNN对缩放和旋转不是不变的;也就是说CNN是变化的,不具有旋转和缩放不变性; 因为…

我的大理行

离开北京的时候是周五,天气很诡异:潮湿而又充满尘燥,阴霾而又阳光明亮, 真不知道这样的天气怎么能够共存?! 我发神经的做上了飞往云南的航班,这是休息,是治疗。 飞机正位&#xff0c…

LeetCode 703. 数据流中的第K大元素(优先队列)

1. 题目 设计一个找到数据流中第K大元素的类(class)。 注意是排序后的第K大元素,不是第K个不同的元素。 你的 KthLargest 类需要一个同时接收整数 k 和整数数组nums 的构造器,它包含数据流中的初始元素。 每次调用 KthLargest.a…

李宏毅机器学习(五)Transformer

学习内容 前情提要 Sequence-to-sequence(Seq2Seq) 输入是一个句子,输出长度不定; 下面的第一个是语音辨识,第二个是机器翻译,第三个是语音翻译。这三个都是独立的任务。 第三个是语音翻译,就…

Asp.net中的时区

首先&#xff0c;日期时间转换在 Asp.net 中的几种应用&#xff1a; 1. <ASP:BOUNDCOLUMN DATAFIELD "JoinTime " DATAFORMATSTRING "{0:yyyy-MM-dd} " > <ITEMSTYLE WIDTH "18% " > </ITEMSTYLE > </ASP:BOUNDCO…

中文python笔记_Python学习笔记-基础篇

安装LinuxLinux已经自带Python了&#xff0c;我的Centos7自带Python2.7.4&#xff0c;我通过源码安装来更新版本。#!/bin/bash#源码安装wget https://www.python.org/ftp/python/2.7.9/Python-2.7.9.tgztar -zxvf Python-2.7.9.tgzcd Python-2.7.9#编译安装./configuremakemake…

python模块time_Python模块:time模块详解(转)

在平常的代码中&#xff0c;我们常常需要与时间打交道。在Python中&#xff0c;与时间处理有关的模块就包括&#xff1a;time&#xff0c;datetime以及calendar。这篇文章&#xff0c;主要讲解time模块。在开始之前&#xff0c;首先要说明这几点&#xff1a;在Python中&#xf…

李宏毅机器学习(六)自监督学习(一)

学习内容 前情提要 BERT与芝麻街 这些都是BERT的组件 BERT与进击的巨人 BERT&#xff08;340 M 参数&#xff09; ELMO&#xff08;94M&#xff09; GPT-2&#xff08;1542M&#xff09; Megatron&#xff08;8B&#xff09; T5&#xff08;11B&#xff09; Turing NLG&…

LeetCode 717. 1比特与2比特字符

1. 题目 有两种特殊字符。第一种字符可以用一比特0来表示。第二种字符可以用两比特(10 或 11)来表示。 现给一个由若干比特组成的字符串。 问最后一个字符是否必定为一个一比特字符。 给定的字符串总是由0结束。 示例 1: 输入: bits [1, 0, 0] 输出: True 解释: 唯一的编…

制作多系统启动盘教程_制作U盘启动盘教程

制作 U 盘启动盘图文教程 在笔记本电脑早已普及到会议室的这个年代&#xff0c;商务人士拿笔记本来演示 PPT 以及做电子版 的会议记录&#xff1b;在笔记本电脑已经普及到教室的这个年代&#xff0c;学生们甚至在用笔记本翻阅资料 进行开卷考试。随着笔记本电脑正在成为人们生活…