Efficient Estimation of Word Representations in Vector Space论文笔记解读

基本信息

作者TomasMikolovdoi10.48550
发表时间2013期刊ICLR
网址http://arxiv.org/abs/1301.3781

研究背景

1. What’s known 既往研究已证实
前馈神经网络语言模型(NNLM)
循环神经网络语言模型(RNNLM)

2. What’s new 创新点
Word2vec有两种模型:CBOW和Skip-gram,使得计算成本下降并且准确率提升。
Word2vec的向量表示能够自动捕捉到单词之间的语义和语法关系。

3. What’s are the implications 意义
加快训练速度。
能够在大规模语料上进行词向量的训练。
衡量词向量之间的相似程度。

研究方法

1. skip-gram
通过中心单词来预测上下文单词。对于给定的一对(中心单词,上下文单词),我们希望最大化它们的共现概率。
在这里插入图片描述
用softmax来估计每个上下文单词的概率:
在这里插入图片描述
损失函数:
在这里插入图片描述
在这里插入图片描述

2. cbow(词袋模型bag-of-word)
用周围词预测中心词,求和的时候忽略了每个词的顺序。
在这里插入图片描述
在这里插入图片描述
损失函数:
在这里插入图片描述
最后输出V个概率,复杂度比较高,采用了2重方法降低复杂度,分别是层次softmax和负采样。

3. Hierarchical Softmax
将输出层的单词表示为一个二叉树,其中每个叶子节点都表示一个单词。每个非叶子节点都表示两个子节点的内积,每个叶子节点都表示该单词的条件概率。由于二叉树的形状,我们可以使用 l o g 2 W log_{2}W log2W个节点来表示词汇表大小为W的模型,降低计算量。
在这里插入图片描述
4. Negative Sampling
舍弃多分类,把多分类转变成二分类问题(正样本和负样本)。

正样本:用中心词和其中一个周围词做成正样本(jumps over)
负样本:我们随机从词表里面选一个词与over构成负样本(over again)

增大正样本的概率,减小负样本的概率。

损失函数:正样本函数+负样本函数
在这里插入图片描述
函数“J neg-sample ”越大越好,损失函数需要加个符号让损失越小越好。
https://zhuanlan.zhihu.com/p/419804103

结果与讨论

  1. 单词向量优于以前的技术状态。
  2. 使用非常简单的模型架构可以训练高质量的词向量。计算复杂性低,可从更大的数据集中计算非常精确的高维词向量。
  3. 通过Word2vec训练出的词向量可以用于许多自然语言处理任务,例如词义相似度计算、命名实体识别和情感分析等。

重要图

文献中重要的图记录下来
图1: 新的模型架构。CBOW架构根据上下文预测当前单词,Skip-gram根据当前单词预测周围单词
在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/44492.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

AJAX-个人版2.0

AJAX(Asynchronous Javascript And Xml) 传统请求及缺点 传统的请求都有哪些? 直接在浏览器地址栏上输入URL。点击超链接提交form表单使用JS代码发送请求 window.open(url)document.location.href urlwindow.location.href url… 传统请…

【对抗算法复现】CW

首先进行数据的预处理 transform transforms.Compose([transforms.ToTensor(), # 将图片转换为Tensor,自动将[0,255]映射到[0,1]transforms.Normalize((0.491,0.482 ,0.446), (0.247 ,0.243 ,0.261)) # 对张量进行标准化,使其范围为[-1,1] ])CW实现 …

“十四五”新型基础设施建设

一、基础设施 基础设施包括交通设施、邮电通讯设施、能源动力设施、供水排水设施、环保设施、防卫防灾安全设施等传统基础设施。这些设施共同构成了一个国家或地区正常运转的支柱,确保社会经济活动的正常进行。 交通设施:交通设施是基础设施的重要组成部…

AbyssFish单连通周期边界多孔结构2D软件

软件介绍 AbyssFish单连通周期边界多孔结构2D软件(以下简称软件)可用于生成具备周期性边界条件的单连通域多孔结构PNG图片,软件可设置生成模型的尺寸、孔隙率、孔隙尺寸、孔喉尺寸等参数,并且具备孔隙形态控制功能。 软件生成的…

视频号热门视频数据分析工具,快速查看同行数据创作者必看!

每天排行榜是帮助创作者查看同行数据为自己提供创作灵感,此外每天排行榜热门的视频收集了用户喜欢看的类型。 灵感分类了解当前社会关注的热点内容。该工具通过监测和分析视频号全网舆情,选取热门话题进行排序,形成一个每日热点排行榜。 这…

yolov8 分类太阳能板

原文:yolov8 分类太阳能板 - 知乎 (zhihu.com) 1、数据集 https://github.com/zae-bayern/elpv-dataset​github.com/zae-bayern/elpv-dataset 2、数据分析 import matplotlib.pyplot as plt import ostrain_dir = "./images" valid_extensions=(.jpg, .png, .j…

华为防火墙上的配置(1)

实验拓扑图 实验要求: 1、DMZ区内的服务器,生产区仅能在办公时间内(9:00-18:00)可以访问,办公区的设备全天可以访问 2、生产区不允许访问互联网,办公区和游客区允许访问互联网 3、办公区设备10.0.2.10不…

00:HAL库的认识

一:HAL库 开发现状: 1:下载 网站: https://www.st.com/zh/embedded-software/stm32cube-mcu-mpu-packages.html 去选择我们的系列 我们使用的是STM32F103C8t6的这个 继续一直向下拉点击这个;之后傻瓜步骤直接可以…

最新2023年行政区划、路网、土壤质地矢量数据

行政区划矢量数据是指用矢量格式表示的地理信息系统(GIS)数据,其中包含了行政区域的边界信息,如国家、省份、城市、区县、乡镇甚至村级的界限。这些数据通常以点、线、面的几何图形来表示具体的地理实体,并且每个实体都…

亚马逊erp跟卖采集之关键词采集

大家好,今天讲这款erp的跟卖采集关键词采集。 打开erp跟卖功能采集任务,点新增任务站点美国,有5种采集方式:关键词、店铺链接、类目ASIN。 选择关键词采集,这里我选择女童装,选择女童板鞋复制粘贴。页数我…

新书速览|HTML5+CSS3 Web前端开发与实例教程:微课视频版

《HTML5CSS3 Web前端开发与实例教程:微课视频版》 本书内容 《HTML5CSS3 Web前端开发与实例教程:微课视频版》秉承“思政引领,立德树人”的教育理念,自然融入多维度、深层次的思政元素,全面对标企业和行业需求&#x…

Chameleon:动态UI框架使用详解

文章目录 引言Chameleon框架原理核心概念工作流程 基础使用安装与配置创建基础界面 高级使用自定义组件响应式布局数据流与状态管理 结论 引言 Chameleon,作为一种动态UI框架,旨在通过灵活、高效的方式帮助开发者构建跨平台、响应用户交互的图形用户界面…

ant-design-vue表格设置某列标题部分文字颜色

在ant-design-vue的表格组件中&#xff0c;可以通过使用slot自定义列头&#xff08;title&#xff09;的内容来实现部分文字的颜色设置。以下是一个简单的例子&#xff0c;展示如何设置某列标题部分文字颜色为红色&#xff1a; <template><a-table :columns"col…

iwconfig iwpriv学习之路

iwconfig和iwpriv是两个常用的wifi调试工具&#xff0c;最近需要使用这两个工具完成某款wifi芯片的定频测试&#xff0c;俗话说好记性不如烂笔头&#xff0c;于是再此记录下iwconfig和iwpriv的使用方式。 -----再牛逼的梦想&#xff0c;也抵不住傻逼般的坚持&#xff01; ----2…

单向链表队列

实现单向链表队列的&#xff0c;创建&#xff0c;入队&#xff0c;出队&#xff0c;遍历&#xff0c;长度&#xff0c;销毁。 queue.h #ifndef __QUEUE_H__ #define __QUEUE_H__#include <stdio.h> #include <stdlib.h> #include <string.h> #define max 30…

大语言模型里的微调vs RAG vs 模板提示词

文章目录 介绍微调&#xff08;Fine-tuning&#xff09;定义优点&#xff1a;缺点&#xff1a;应用场景&#xff1a;技术细节 检索增强生成&#xff08;RAG&#xff0c;Retrieval-Augmented Generation&#xff09;定义优点&#xff1a;缺点&#xff1a;应用场景&#xff1a;技…

鸿蒙开发:Universal Keystore Kit(密钥管理服务)【密钥派生(ArkTS)】

密钥派生(ArkTS) 以HKDF256密钥为例&#xff0c;完成密钥派生。具体的场景介绍及支持的算法规格。 开发步骤 生成密钥 指定密钥别名。 初始化密钥属性集&#xff0c;可指定参数HUKS_TAG_DERIVED_AGREED_KEY_STORAGE_FLAG&#xff08;可选&#xff09;&#xff0c;用于标识基…

jvm 06 补充 OOM 和具体工具使用

1.OOM 是什么 OOM&#xff0c;全称“Out Of Memory”&#xff0c;翻译成中文就是“内存用完了”&#xff0c;来源于java.lang.OutOfMemoryError。看下关于的官方说明&#xff1a; Thrown when the Java Virtual Machine cannot allocate an object because it is out of memor…

三角函数 积化和差、和差化积公式

积化和差公式 公式1 s i n A ⋅ s i n B − 1 2 [ c o s ( A B ) − c o s ( A − B ) ] \mathrm{sin}A\cdot\mathrm{sin}B-\dfrac{1}{2}[\mathrm{cos}(AB)-\mathrm{cos}(A-B)] sinA⋅sinB−21​[cos(AB)−cos(A−B)]. − 1 2 [ c o s ( A B ) − c o s ( A − B ) ] -\dfra…

电机学-绪论

绪论 电机&#xff1a;根据电磁感应定律和电磁力定律实现机电能量转换和信号传递与转换的电磁机械装置。 电磁感应定律&#xff1a; BiliBili: 法拉第电磁感应定律 BiliBili: 楞次定律 BiliBili: 左手定则、右手定则、右手螺旋定则