d3设置line长度_万物皆可Embedding之LINE算法解读

需要论文的朋友可以后台私信我获取

前言

上一篇文章给大家带来了Graph Embedding技术中的代表算法Deepwalk,今天给大家介绍graph embedding又一代表算法——LINE,LINE(large-scale information Network,大规模信息网络)致力于将大型的信息网络嵌入到低维的向量空间中,且该模型适用于任何类型(有向、无向亦或是有权重)的信息网络。并提出了一种解决经典随机梯度下降限制的边缘采样算法,提高了算法的有效性和效率,且在应用方面更广。总结下来LINE有以下几个特点或者优势:

(1)适用广,适合任意类型的网络,不论是有向图还是无向图还是带权图。

(2)信息全,目标函数(objective function)同时考虑了网络局部特征和全局特征。

(3)效率高,提出一种边采样的算法,可以很好地解决SGD的效率问题。

(4)时间快,提出了十分高效网络表示方法,在小时范围内的单机节点上学习百万级顶点网络的表示。

下面一下来看看这篇文章吧。

重要定义

了解LINE算法之前需要了解一下论文里面的几个重要概念。

信息网络

信息网络定义为 G=(V,E)其中V 是顶点集合,顶点表示数据对象, E 是顶点之间的边缘的集合,每条边表示两个数据对象之间的关系。每条边e(E)表示为有序对e=(u,v),并且与权重Wuv>0相关联,权重表示关系的强度。如果G是无向的,我们有 (u,v) !=(v,u)和Wuv=Wvu ;如果G是有向的,我们有(u,v) !=(v,u) 和Wuv!=Wvu,一般情况下我们认为权重非负。

一阶相似性

网络中的一阶相似性是两个顶点之间的局部点对的邻近度。对于有边(u,v) 连接的每对顶点,该边的权重Wuv 表示u 和v之间的一阶相似性,如果在u 和v之间没有观察到边,他们的一阶相似性为0。

二阶相似性

二阶相似性指的是一对顶点之间的接近程度(u,v) 在网络中是其邻域网络结构之间的相似性。数学上,让

表示一阶附近与所有其他的顶点,那么u和v之间的二阶相似性由pu和pv之间的相似性来决定。如果没有一个顶点同时和u与v 连接,那么u和v 的二阶相似性是0。

大规模信息网络嵌入

给定大网络 G=(V,E),大规模信息网络嵌入是将每个顶点v(V) 表示为低维空间(d)中的向量,学习一个函数:

其中d<<

以上图为例:一阶相似性表示两个顶点直接相连,比如6和7两个顶点,它们就是相似的;二阶相似表示两个两个顶点有相同的连接顶点,比如5和6虽然不直接连接,但是同时和1,2,3,4相连,所以5和6是相似的,这和协同过滤是不是很像,说白了就是根据图结构来表达顶点间的相似度。

算法介绍

一阶相似性

对每个无向边(i,j),定义顶点vi和vj的联合概率分布为:

ui(d维)是顶点vi的低维向量表示,为保持其一阶相似性,p(,)为空间VxV上的一个分布:

W为i,j两点间边权重总和。为了求解一阶相似,直接方法是最小化以下的目标函数:

d(.,.)为两种分布之间的距离,我们选择尽量减少两个概率分布的KL 散度。将d(,)替换为 KL 散度并省略一些常数,我们得到︰

注意一点:一阶相似度仅适用于无向图,而不适用于有向图。

二阶相似性

二阶相似性适用于有向或者无向图(比如Deepwalk里面就用到了有向的二阶相似性),二阶相似性假定与其他顶点共享邻居顶点的两个点彼此相似(无向有向均可),一个向量u和u'分别表示顶点本身和其他顶点的特定“上下文”,意为二阶相似。对于每个有向边(i,j),我们首先定义由生成“上下文”的概率:

其实这和word2vec里面的公式是一样的代表一个条件分布,我们取i为研究对象,p(,vi),降维之后使其接近与经验分布p2。因此最小化以下目标函数:

d(,)和一阶里面定义一致,表示两个分布的距离,λi来表示网络中顶点i的声望(可以理解为权重),在本文中即是顶点i的度数,因此二阶相似性的计算公式为:

最后将得到一阶相似向量和二阶相似向量直接拼接在一起得到最终的节点向量。

模型优化

由于O2的计算代价十分的昂贵,因此目标函数优化时使用了负采样方法,为每条边指定了一个目标函数:

注:

就是sigmoid函数,K表示负采样边的个数,

其中dv是顶点v的出度(和词向量里面的几乎是一样的)。

上述函数又可通过采用异步随机梯度下降算法(ASGD)来优化。每一步中,ASGD算法对小批量边缘进行抽样,然后更新模型参数。但是这也带来一个问题,如果我们根据小权重的边缘选择较大的学习率,那么大权重的边上就会出现梯度爆炸,如果我们根据具有较大权重的边选择学习小的速率,那么小权重上的边就会出现梯度消失。因此边缘采样同样要优化。从起始边缘采样并将采样的边缘作为二进制边缘,其中采样概率与原始边缘的权重成比例。

实验分析与展示

与Deepwalk中的实验类似。

数据集

  • 语言网络:基于英文维基百科页面构建词共同网络
  • 社交网络:Flickr、Youtube
  • 引用网络:作者和论文引文网

算法

  • GF
  • Deepwalk
  • LINE-SGD,
  • LINE
  • LINE (1st+2nd):

参数设置

对于所有方法,随机梯度下降的小批量大小设置为1;以起始值p0= 0.025和pt= p0(1-t)设定学习速度, T是小批量或边缘样品的总数;为了公平比较,语言网络嵌入的维度被设置为200;而其他网络中,默认设置为128;其他的默认参数设置包括:LINE的负采样k=5,样本总数T=100亿(LINE),T=200亿(GF),窗口大小win = 10,步行长度t = 40,对于Deep Walk,每顶点行走y= 40;所有的嵌入向量最终通过设置 ||w||2 = 1进行归一化。

语言网络

评估学习嵌入的有效性:词类比和文档分类。

词类比:给定一个单词对(a,b)和一个单词c,该任务旨在找到一个单词d,使得c

和d之间的关系类似于a和b之间的关系。

由实验结果可看出LINE(2nd)优于其他模型,相比于其他算法,LINE的二阶相似性可以更好的衡量词在空间中的关系。这个算法我没有使用过,对于这个实验结果我表示怀疑。

由上表可以看出LINE模型在文档分类上效果强于其他模型。

上表比较一阶相似性和二阶相似性之间的效果。由表可以看出一阶相似体现的是与目标词句法和语义相关词的混合。二阶相似返回的是目标词对应的所有语义相关词。

社交网络

与语言网络相比,社交网络更加稀缺;将每个节点分配到一个或多个社区的多标签分类任务来评估顶点嵌入;随机抽取不同百分比的顶点进行训练,其余用于评估。结果在10次不同运行中进行平均。下面是在Flickr和Youtube数据集上的结果展示。

引用网络

通过GF和LINE两种方法对引用网络进行评估。还通过多标签分类任务评估顶点嵌入。 我们选择7个流行会议,包括AAAI,CIKM,ICML,KDD,NIPS,SIGIR和WWW作为分类类别。

训练结果

模型效果 &网络稀疏度

参数分析

从低维向量维度个训练样本数来展示不同模型效果,总体来说LINE(2nd)好于其他。

稳定性

这些图说明了一点,LINE算法很好,很稳定,好于Deepwalk等同类型算法。

总结

看这篇论文给我一种感觉是有一些很好的地方比如一阶、二阶相似性等,但是效果不应该这么大,可能是有一些工程经验文章没有说或者是我还是体会到,总结下来就是LINE是以图的结构(边)来构造样本,并没有Deepwalk里面随机游走等方式构造序列,这种思想还是有很大的创新性的。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/441227.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

专转本计算机第一章试题,江苏专转本 计算机第一章自测题(含答案).doc

《江苏专转本 计算机第一章自测题(含答案).doc》由会员分享&#xff0c;提供在线免费全文阅读可下载&#xff0c;此文档格式为doc&#xff0c;更多相关《江苏专转本 计算机第一章自测题(含答案).doc》文档请在天天文库搜索。1、&#xfeff;第一章补充习题一、判断题&#xff1…

【HDU - 2012】素数判定(水题,数论,打表)

题干&#xff1a; 解题报告&#xff1a; AC代码1&#xff1a; #include<bits/stdc.h> #define MAX 10000//求MAX范围内的素数 using namespace std; long long su[MAX],cnt; bool isprime[MAX]; void prime() { cnt1; memset(isprime,1,sizeof(isprime)); isp…

【POJ - 3048】Max Factor (数论,打表,水题)

题干&#xff1a; To improve the organization of his farm, Farmer John labels each of his N (1 < N < 5,000) cows with a distinct serial number in the range 1..20,000. Unfortunately, he is unaware that the cows interpret some serial numbers as better …

伺服电机停的时候会冲一下_造成伺服电机抖动的原因竟然是它!内附解决方法...

伺服电机(servo motor )是指在伺服系统中控制机械元件运转的发动机&#xff0c;是一种补助马达间接变速装置。它可使控制速度&#xff0c;位置精度非常准确&#xff0c;可以将电压信号转化为转矩和转速以驱动控制对象。伺服电机转子转速受输入信号控制&#xff0c;并能快速反应…

系统备份是对计算机硬件进行维户吗,计算机系统维护毕业论文_精品.doc

计算机系统维护毕业论文_精品计算机系统维护毕业论文2. Easyrecovery153. 驱动精灵17第三章&#xff1a;Win 7系统的使用和维护181. 利用Win 7操作系统自带的工具对系统进行维护和优化182. 利用专用的工具软件对Win 7系统进行维护和优化192.1 Win 7优化大师202.2 魔方213. 注册…

【 HDU - 5363】Key Set(水题,快速幂,组合数学)

题干&#xff1a; soda has a set SS with nn integers {1,2,…,n}{1,2,…,n}. A set is called key set if the sum of integers in the set is an even number. He wants to know how many nonempty subsets of SS are key set. Input There are multiple test cases. The…

ajax 更新模型数据_DuangDuangDuang,重点来啦!高薪全靠它——百战Web前端课程更新03.11...

百战程序员九大专业运营&#xff0c;周周有课程更新&#xff0c;保持行业领先。本次更新课程Web前端第三十阶段经典面试题解析章节1—5及课程资料。本次更新可谓是诚意满满&#xff0c;针对市场面试需要&#xff0c;总结经典面试题集&#xff0c;为你揭开企业技术要求的神秘面纱…

河南省高考让不让带计算机,河南高考2018严禁携带的东西有哪些?这种衣服不能进考场...

近日&#xff0c;河南省开启高考“严控”模式&#xff0c;将依法从严治考&#xff0c;关怀服务考生&#xff0c;对任何破坏高考安全工作的行为“零容忍”。带金属的鞋带、鞋眼、鞋底&#xff0c;带金属挂钩和钢圈的内衣、腰带、裤子挂钩、衣扣通通不能进考场&#xff01;  快…

【POJ - 2262】Goldbach's Conjecture (数论,哥德巴赫猜想,知识点结论)

题干&#xff1a; In 1742, Christian Goldbach, a German amateur mathematician, sent a letter to Leonhard Euler in which he made the following conjecture: Every even number greater than 4 can be written as the sum of two odd prime numbers.For example: 8 …

msg计算机指令怎样用,WIN7里使用msg命令发送消息失败

使用服务&#xff1a;WIN7里使用msg命令发送消息一、msg语法MSG {username | sessionname | sessionid | filename | *}[/SERVER:servername] [/TIME:seconds] [/V] [/W] [message]username 标识指定的用户名。sessionname 会话名。sessionid 会话…

combox 增加请选择_娱乐测试:选择四种花束中的一种,测试你对婚姻的看法

阅读本文前&#xff0c;请您先点击上面的“落落天使”&#xff0c;再点击“关注”&#xff0c;这样您就可以继续免费收到文章了。每天都有分享&#xff0c;完全是免费订阅&#xff0c;请放心关注。 …

【POJ - 2909 】Goldbach's Conjecture (哥德巴赫猜想,数论,知识点结论)

题干&#xff1a; For any even number n greater than or equal to 4, there exists at least one pair of prime numbers p1 and p2 such that n p1 p2 This conjecture has not been proved nor refused yet. No one is sure whether this conjecture actually holds. …

计算机突然断电恢复供电后,电脑突然断电的坏处有哪些?

对于经常使用计算机进行办公的用户而言&#xff0c;最可怕的事情是计算机在保存文件之前突然断电关机。但是&#xff0c;这对于计算机本身根本不是问题&#xff0c;只要计算机能够正常运行。但是&#xff0c;如果断电导致以下任何一种情况&#xff0c;则需要小心&#xff01;1、…

python函数实例解析_python支持返回函数的实例解析

这篇文章主要介绍了python支持返回函数的实例解析,小编觉得挺不错的&#xff0c;现在分享给大家&#xff0c;也给大家做个参考。一起跟随小编过来看看吧最近接触python,看到了python中返回函数的概念&#xff0c;以前只接触过函数返回值&#xff0c;比如python就可以返回int,st…

【CodeForces - 260D】Black and White Tree (思维构造,猜结论,细节,构造一棵树)

题干&#xff1a; The board has got a painted tree graph, consisting of n nodes. Let us remind you that a non-directed graph is called a tree if it is connected and doesnt contain any cycles. Each node of the graph is painted black or white in such a mann…

手游 自建服务器,英灵神殿自己搭建服务器怎么弄

英灵神殿是一款冒险生存类游戏&#xff0c;在英灵神殿游戏中小伙伴要自己搭建服务器才能玩&#xff0c;那么要怎么搭建&#xff0c;有什么技巧吗?接下来和小编一起来看看吧!Valheim英灵神殿服务器搭建技巧第一步&#xff1a;SteamCMD和安装内容从这里下载SteamCMD。将其提取到…

描写火车站场景_关于描写火车站的句子

关于描写火车站的句子关于描写火车站的句子所以至今&#xff0c;我仍很爱乘火车&#xff0c;卧铺&#xff0c;靠在枕头上看书&#xff0c;沉沉睡去&#xff0c;听铁轨一层一层的荡漾&#xff0c;在记忆中昏暗地穿行&#xff0c;如果我爱谁&#xff0c;我们一定会乘火车去很远的…

【POJ - 1463】Strategic game (树上最小点覆盖,树形dp)

题干&#xff1a; Bob enjoys playing computer games, especially strategic games, but sometimes he cannot find the solution fast enough and then he is very sad. Now he has the following problem. He must defend a medieval city, the roads of which form a tree…

vue css自定义标签,Vue如何使用CSS自定义变量

目录在 css 自定义变量的功能以及出来许久了&#xff0c;但实际开发中大家使用并不多。归其原因是因为 less、sass 等预处理器已经拥有定义变量的功能&#xff0c;以及Vue、react很方便设置 style 样式&#xff0c;大家可能觉得使用 css 定义变量不方便且没必要。实则不然举个最…

【CodeForces - 260A】Adding Digits (思维构造)

题干&#xff1a; Vasya has got two number: a and b. However, Vasya finds number a too short. So he decided to repeat the operation of lengthening number a n times. One operation of lengthening a number means adding exactly one digit to the number (in the…