论文浅尝 | 主题驱动的分子图表示对比学习

笔记整理 | 方尹,浙江大学在读博士,研究方向:图表示学习。


论文地址:https://arxiv.org/abs/2012.12533

动机与贡献

现有的对比学习框架中可能存在以下几个弊端:

1.把节点看成一种视图,在节点和图之间进行对比学习,这样可能会限制模型捕获整体信息的能力;

2.把子图看成一种视图,挑选子图的方法比如随机游走或着k-hop邻居很大概率会得到完全没有意义的子图。而依赖于子图结构计数的motif mining方法又不适用于大规模数据集。

 

作者提出了MICRO-Graph框架:

1.自动化找出motif,再找出这个motif下的子图

2.一种子图到图的对比学习框架

模型与算法

整体框架分为三部分:1.找出重要的子图;2.cluster抽出来的子图,并定义主题;3.子图到图的对比学习。

图通过GNN encoder得到节点的表示,再通过segmenter模块抽取子图,子图通过encoder获得子图表示,子图的表示通过motif learner模块学习子图属于哪些主题,更新的参数又会影响segmenter抽取子图的方式和节点表示。把最终生成的子图和整个图进行对比学习。

Motif learner

input graph通过segmenter抽取出N个子图,每个子图通过encoder学习到子图的表示。这里要用到的两个矩阵:S衡量了主题和子图的相似度,Q衡量了子图被分配到某个主题的概率。

E-step的目标就是求解Q,使得子图和它被分配到的主题的相似度最大。

目标函数:最大化 分配矩阵Q和相似度矩阵S乘积的迹 其实就是最大化子图和它被分配到的主题的相似度。因为在进行表示学习时representation会发生变化,可能会导致退化的问题,比如所有的表示都聚到一个cluster。所以这里引入了一个约束H(Q).

M-step的目标是在已知最优Q的情况下,寻找似然函数最大化时对应的参数,更新encoder的参数和motif embedding table。相当于一个label为Q,预测得分为S的K-分类问题。利用负对数似然做损失函数,这里的S做了softmax normalization.

motif learner的作用就是在给定的子图上学习他们的主题。

Motif-guided subgraph segmenter

包含n个节点的graph通过encoder得到每个节点的embedding, 计算了节点两两之间的相似度。通过A,进行谱聚类:将聚类后,组成成分多于3个节点的子结构作为subgraph, 聚合子结构包含的所有节点embedding作为subgraph embedding.

它的训练基于一种直觉:如果子图和主题很相似,那么子图的节点embedding随着update也会相似。Loss:如果子图和任意主题相似度高于某个阈值,就让子图中节点的affinity values更高,这些节点和不在子图中的其他节点的affinity values越低。

经过训练,在下一个sampling回合中,产生出来的motif-like的子图的节点更有可能被分割在一起,这样的子图才会更有意义。

Contrastive learning between graph and subgraphs

图和从这张图中sample出的子图作为positive pairs;这张图和从其他图中sample出的子图作为negative pairs. W是图和子图的相似度矩阵。

Joint training

训练时同时考虑三个模块的损失。

实验与结果

1.两种evaluation protocol:

2.五个最频繁出现的主题,用与他们最相近的subgraph表示:

3.Ablation study

欢迎有兴趣的同学阅读原文。

 


 

OpenKG

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和广泛应用。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478316.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

LeetCode 931. 下降路径最小和(DP)

文章目录1. 题目2. 动态规划解题1. 题目 给定一个方形整数数组 A,我们想要得到通过 A 的下降路径的最小和。 下降路径可以从第一行中的任何元素开始,并从每一行中选择一个元素。在下一行选择的元素和当前行所选元素最多相隔一列。 示例: 输…

到2021年,目前深度学习领域有哪些除了调模型以外的硬核研究工作和进展?

文 | 刘斯坦,电光幻影炼金术源 | 极市平台作为一个未入门的研究生小白,一方面为深度学习的实际效果和应用价值而感到兴奋,另一方面也会担忧自己的个人能力的发展。个人目前浅薄的看法是,调模型的强应用向的研究工作,由…

美团点评SQL优化工具SQLAdvisor开源

在数据库运维过程中,优化 SQL 是 DBA 团队的日常任务。例行 SQL 优化,不仅可以提升程序性能,还能够降低线上故障的概率。 目前常用的 SQL 优化方式包括但不限于:业务层优化、SQL逻辑优化、索引优化等。其中索引优化通常通过调整索…

使用flask调用接口去加载模型和数据集,避免每次运行都会重复加载数据集或模型,节约大量等待时间

配置python程序debug/run,避免每次运行都会重复加载数据集或模型,节约大量等待时间 使用轻量级的后端框架flask运行要加载的模型,作为后端,保持在后端运行 调用程序时直接使用url访问即可 需要用到的依赖包: pip inst…

LeetCode 295. 数据流的中位数(大小堆)

文章目录1. 题目2. 大小堆解题1. 题目 中位数是有序列表中间的数。如果列表长度是偶数,中位数则是中间两个数的平均值。 例如, [2,3,4] 的中位数是 3 [2,3] 的中位数是 (2 3) / 2 2.5设计一个支持以下两种操作的数据结构:void addNum(int…

论文浅尝 | 利用常识知识图谱进行多跳推理的语言生成方法

笔记整理 | 朱珈徵,天津大学硕士。链接:https://arxiv.org/pdf/2009.11692.pdf动机尽管生成式预训练语言模型在一系列文本生成任务上取得了成功,但在生成过程中需要对基础常识知识进行推理的情况下,它们仍然会受到影响。现有的方法…

成本砍砍砍!不用数据也能用 BERT 做对比学习?

文 | 小昌编 | 小戏大家好,我是小昌,今天和大家聊一聊如何从 BERT 中获取好的句子表征。大家都知道,BERT 的设计初衷是为了获得更好的单词表征。但是,利用 BERT 来表征句子的需求无论在学术界还是工业界都是非常紧迫的。因此&…

Mt-Falcon——Open-Falcon在美团点评的应用与实践

监控系统是整个业务系统中至关重要的一环,它就像眼睛一样,时刻监测机房、网络、服务器、应用等运行情况,并且在出现问题时能够及时做出相应处理。 美团点评刚开始使用的是Zabbix监控系统,几经优化,在当时能够达到2W机器…

paddlenlp 任务清单 中文分词、中文纠错、文本相似度、情感分析、词性标注等一键

PaddleNLP Taskflow https://github.com/PaddlePaddle/PaddleNLP/blob/develop/docs/model_zoo/taskflow.md#paddlenlp-taskflow PaddleNLP Taskflow PaddleNLP Taskflow 介绍 任务清单 用法 查看使用示例中文分词词性标注命名实体识别文本纠错句法分析情感分析文本相似度『解…

论文浅尝 | 以知识图谱为基础的开放域对话生成的目标规划

笔记整理 | 韩振峰,天津大学硕士。链接:https://ojs.aaai.org//index.php/AAAI/article/view/6474动机 之前有关开放域对话生成的神经模型没有有效的机制来管理聊天主题,并且往往会生成不连贯的对话。受到人与人对话策略的启发,本…

LeetCode 378. 有序矩阵中第K小的元素(二分查找)

文章目录1. 题目2. 解题2.1 暴力法2.2 二分查找1. 题目 给定一个 n x n 矩阵,其中每行和每列元素均按升序排序,找到矩阵中第k小的元素。 请注意,它是排序后的第k小元素,而不是第k个元素。 示例: matrix [[ 1, 5, 9],[10, 11,…

LeetCode 341. 扁平化嵌套列表迭代器(双栈)

文章目录1. 题目2. 双栈解题1. 题目 给定一个嵌套的整型列表。设计一个迭代器,使其能够遍历这个整型列表中的所有整数。 列表中的项或者为一个整数,或者是另一个列表。 示例 1: 输入: [[1,1],2,[1,1]] 输出: [1,1,2,1,1] 解释: 通过重复调用 next 直到…

外卖O2O的用户画像实践

美团外卖经过3年的飞速发展,品类已经从单一的外卖扩展到了美食、夜宵、鲜花、商超等多个品类。用户群体也从早期的学生为主扩展到学生、白领、社区以及商旅,甚至包括在KTV等娱乐场所消费的人群。随着供给和消费人群的多样化,如何在供给和用户…

simbert文本相似度,短文本语义匹配模型

simbert文本相似语义召回;保存及在线服务https://blog.csdn.net/weixin_42357472/article/details/116205077 SimBERT(基于UniLM思想、融检索与生成于一体的BERT模型)【主要应用场景:相似文本生成、相似文本检索】 https://blog.…

论文浅尝 | 利用开放域触发器知识改进事件检测

笔记整理 | 申时荣,东南大学博士来源:ACL 2020源码:https://github.com/shuaiwa16/ekd.git摘要事件检测(ED)是文本自动结构化处理的一项基本任务。由于训练数据的规模小,以前的方法在unseen/标记稀疏的触发…

Beyond 预训练语言模型,NLP还需要什么样的知识?

近年来,深度学习技术已广泛应用于NLP领域,但实际应用效果往往受限于缺乏大规模高质量监督样本。2018年底,预训练语言模型横空出世,极大缓解了这个问题,通过“超大规模无监督语料上的预训练语言模型相对少量的监督样本进…

日志级别动态调整——小工具解决大问题

随着外卖业务的快速发展,业务复杂度不断增加,线上系统环境有任何细小波动,对整个外卖业务都可能产生巨大的影响,甚至形成灾难性的雪崩效应,造成巨大的经济损失。每一次客诉、系统抖动等都是对技术人员的重大考验&#…

LeetCode 324. 摆动排序 II

文章目录1. 题目2. 解题1. 题目 给定一个无序的数组 nums&#xff0c;将它重新排列成 nums[0] < nums[1] > nums[2] < nums[3]… 的顺序。 示例 1: 输入: nums [1, 5, 1, 1, 6, 4] 输出: 一个可能的答案是 [1, 4, 1, 5, 1, 6] 示例 2: 输入: nums [1, 3, 2, 2, 3,…

最全的Pycharm debug技巧

最全的Pycharm debug技巧&#xff1a; 工欲善其事&#xff0c;必先利其器。无论你的 IDE 是 IntelliJ IDEA、Pycharm、WebStorm、GoLang、还是PhpStorm &#xff0c;调试器都是标配。在遇到有问题的程序时&#xff0c;合理的利用调试器的跟踪和断点技巧&#xff0c;可以很快的…

OpenKG祝大家端午安康

—????????OpenKG祝大家端午安康????????—