ICLR’22 最佳脑洞奖提名:《GPT 如何进行布朗运动?》

c8cc49519c1735b3da88d7ac3501b1de.png

文 | 付瑶
编 | 小轶

今天给大家介绍一篇斯坦福大学的 ICLR'22 论文。该文在 OpenReview 中获得了8/8/8/8的高分。在写这篇推送之前,小编身边有多位朋友都私下向我推荐过这篇文章。虽然这几位朋友所研究的任务并不相同,却都认为这篇文章“极具启发性,可能可以应用于自己的任务”——这对一篇研究工作来说,大概是极高的评价了。故在此与大家分享。

文章解决的是预训练模型的长文本生成问题。做过文本生成的同学应该都见识过,如今的 GPT2 等一众大规模生成模型在生成短文本时可以做到十分流畅;但是做长文本生成的时候就开始前言不搭后语,一致性很差。比如,可能前面还在严肃地针砭时事,后面就突然画风走偏,聊起自己的兴趣爱好、家长里短。这是完全有可能的,因为预训练语言模型在做生成时是完全没有长期规划能力的

那早此之前的解决方法,基本就是把长文本生成问题拆解为两个步骤:先写提纲,再根据提纲做条件生成。那列提纲的方式也有两种。常见的一种是列“显式的提纲”。和我们平时写提纲的方式差不多,把核心内容先提前规划出来。

f8d72b29f2ccef4fc37105125b83081f.png
▲图1:Learning latent dynamics

而本文的方法可以理解为“隐式的提纲”:假设每个词背后都有一个隐向量,而该词是基于该隐向量条件生成的,如下图所示。于是,长文本生成的规划问题就变成了学习预测文本在隐空间中的移动轨迹。本文进一步提出了两个假设:

  1. 文本在隐空间中的移动可以建模为布朗运动的过程。通俗一点解释就是:相邻文本应该有相近的隐空间表示。这也就保证了局部流畅性。

  2. 目标导向的长文本规划中,文本在隐空间中的移动轨迹应当有固定的起点和重点,也就是应当遵从布朗桥过程。

32e73c986cf240284ab49846505d6d51.png
▲图2:文本在隐空间中的移动轨迹遵从布朗运动

接下来,我们具体看看方法部分——本文是如何基于以上两个假设,实现有规划的文本生成?

论文标题
Language modeling via stochastic processes

论文链接
https://arxiv.org/abs/2203.11370

a8d9e1f2c60e59b0e5c41853fec6dc39.png方法05845e6a6a230b99867e407f92a4ce96.png

本文中提出Time Control的方法,主要分为两个部分:

1. 基于布朗桥过程的编码器

首先训练一个编码器,将句子从文本空间X映射到隐空间Z,记为。在隐空间中的移动轨迹应遵循布朗桥运动。也就是说,该轨迹的起点和终点固定,设为 和 ,则在时间点 t 时, 服从以下正态分布:

其均值是 和 之间随时间变化的线性插值。方差部分,可以直观理解为:在靠起点和终点处方差较小,而中间部分则方差较大(如下图左侧所示)。bc0b2a778b93607b883adcebe73aa791.png

那么,应该怎样训练一个编码器来拟合这个过程呢?对于句子序列,我们从中随机采样顺序(但未必相邻)的三个句子。优化目标为:使得遵循布朗桥运动轨迹。其目标函数可以写为:

这个目标函数与对比学习中思想类似,可以理解为:使得更加接近布朗桥过程,而其他负样本三元组与布朗桥过程的差异变大(见图3中的示例)。其中,函数用于度量编码器预测结果到布朗桥轨迹的距离:

402 Payment Required

2. 基于GPT微调解码器生成

用上述编码器得到隐空间中的布朗桥轨迹后,需要再使用一个解码器,以该轨迹为条件生成对应的文本。对于该解码器的训练,作者直接对GPT2进行微调。

在 inference 时,给定隐空间起点与终点,只需随机采样一个两点之间的布朗桥过程,然后用上述解码器进行生成即可,如下图所示:

e3699300b005097fbe45f8bd578b0d04.png
▲图4

db28ad45bb714bc42dbb25298f481952.png实验ad42a9e1b6cda594c3022e8ad598933f.png

原文的实验部分非常充分,列举了TimeContorl在句子排序、文本填充等四个实验的结果:f54747b2012cbfc2d6252833492fa4ad.png在这里我们主要给出比较核心的实验结果——也就是RQ4:本文方法是否确实改善了长文本生成的一致性?作者在实验中设置生成1000个tokens长度的超长文本。对于不具备长期规划能力的自回归模型来说,这种长度的生成是很困难的。作者构建了三个指标评估模型的性能:

(1)排序 模型维护文档结构的程度

5d5d5aa13771d857fa76b373088b6dab.png

(2)长度的一致性

a0c29f85968248dde2c4f7ae4777b3df.png

(3)人工评价

1c18babff9f92041001da4735cb0bae0.png我们可以看到TimeContorl(TC)的改进效果非常好,确实起到了生成更加全局一致的长文本。除此之外作者给出了 TC 与 GPT2 在同一个样例下的生成结果,对比很明显:7067a334366b250c0e5ce4dfd2f1103c.png可以从结果中看到,TimeContorl相较于GPT2自说自话的情况有明显的改进。

cc6974763f516cb6142eae0a70b2c1d4.png总结与感想3ffaaf33d9839dd051bbd469c718a974.png

本文提出 Time Control 模型,将连贯的文本序列映射为平滑的布朗桥轨迹,以此来优化长文本生成的语言一致性。充分的实验结果也确实证明了其方法所带来的优化。在文章的末尾,作者提到:本文的思路亦可延伸至其他具有序列数据的领域,例如视频、音频等。

当读完这篇论文,笔者脑海里的浮现第一个词语是“浑然天成”。从大家在中学期间都学过的经典原理布朗运动入手到与生成任务的改进,可以说是完全意料之外的创新性结合,但是带来了巨大的改进。从抽象的想法,到施施然落地于任务,确实担得起8/8/8/8的评分。

其次,本文被许多拜读过的同学都誉为极具启发性的文章。无论是做序列数据的预测、去噪,还是对话系统、机器翻译的小伙伴,都认为该文的想法可能可以在自己所研究的领域有所借鉴。

另外,本文的想法依托于布朗运动、随机过程等经典的数学理论。作为人类探索世界收割的宝石,数学基础在当下全民炼丹的大环境下是否值得AI界研究者更多的瞩目?希望这篇文章对能各位带来不一样的视角和思考。欢迎大家在评论区探讨。

288d30a8d02f794906d80208fafe402d.png萌屋作者:付奶茶

新媒体交叉学科在读Phd,卖萌屋十级粉丝修炼上任小编,目前深耕多模态,希望可以和大家一起认真科研,快乐生活!

作品推荐

1.在斯坦福,做 Manning 的 phd 要有多强?

2.史上最大多模态图文数据集发布!

3.MSRA-万字综述 直击多模态文档理解

4.大模型时代,我们真的不再需要分词了吗?

9e2ad1b1c505c72ec755cdc4a28d5e48.png后台回复关键词【入群

加入卖萌屋NLP、CV与搜推广与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

189fc79a4173f1ec9af7e374bf97241f.gif c8979ccca86387cf4189ae1624d238a5.png

[1]Fan, Angela, Mike Lewis, and Yann Dauphin. "Strategies for Structuring Story Generation." ACL. 2019.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477433.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

条件随机场(Conditional Random Field,CRF)

文章目录1. 概率无向图模型1.1 模型定义1.2 概率无向图模型的因子分解2. 条件随机场的定义与形成2.1 条件随机场的定义2.2 条件随机场的参数化形式例题2.3 条件随机场的简化形式2.4 条件随机场的矩阵形式例题3. 条件随机场的概率计算问题3.1 前向-后向算法3.2 概率计算3.3 期望…

Spring Cloud构建微服务架构(七)消息总线

先回顾一下,在之前的Spring Cloud Config的介绍中,我们还留了一个悬念:如何实现对配置信息的实时更新。虽然,我们已经能够通过/refresh接口和Git仓库的Web Hook来实现Git仓库中的内容修改触发应用程序的属性更新。但是&#xff0c…

2022中国最有钱大学排名出炉!北大只能排第三

文 | 大勇源 | 抓码计算机考研4月21日,教育部直属高校、工信部直属高校陆续在其信息公开网公布了2022年部门预算,高绩对各高校2022年预算数据进行了整理,从中可以一窥国内重点高校的经费情况。中国有各类型、各层次高校2000余所,就…

图谱实战 | 百度基于异构互联知识图谱的多模内容创作技术

分享嘉宾:卞东海 百度 高级研发工程师编辑整理:蒋郭鑫 河海大学出品平台:DataFunTalk导读:由于大数据时代的发展,知识呈指数级增长,而知识图谱技术又在近年来逐步火热,因此诞生了利用知识图谱技…

Spring Cloud构建微服务架构(四)分布式配置中心

Spring Cloud Config为服务端和客户端提供了分布式系统的外部化配置支持。配置服务器为各应用的所有环境提供了一个中心化的外部配置。它实现了对服务端和客户端对Spring Environment和PropertySource抽象的映射,所以它除了适用于Spring构建的应用程序,也…

华尔街投资人因股价暴跌起诉阿里巴巴,马云为起诉对象?

文 | 曹小灵知乎www.zhihu.com/question/530087383/answer/2458458738前几天发生了一个比较有意思的事情,直接上图:这新闻把我看乐了。这中国科技公司在美国股价下跌的原因,美国人自己不清楚么。2020年就开始闹,2021年落地的《外国…

Spring Cloud源码分析(一)Eureka

看过之前文章的朋友们,相信已经对Eureka的运行机制已经有了一定的了解。为了更深入的理解它的运作和配置,下面我们结合源码来分别看看服务端和客户端的通信行为是如何实现的。另外写这篇文章,还有一个目的,还是希望鼓励大家能够学…

手把手教你写出令人窒息的烂代码

源 | 机器之心在 GitHub 上有一个新项目,它描述了「最佳垃圾代码」的十九条关键准则。从变量命名到注释编写。这些准则将指导你写出最亮眼的烂代码。为了保持与原 GitHub 项目一致的风格,下文没有进行转换。读者们可以以相反的角度来理解所有观点&#x…

LeetCode 85. 最大矩形(DP/单调递增栈,难)

文章目录1. 题目2. 解题2.1 DP2.2 单调递增栈1. 题目 给定一个仅包含 0 和 1 的二维二进制矩阵,找出只包含 1 的最大矩形,并返回其面积。 示例: 输入: [["1","0","1","0","0"],["1",&quo…

图谱实战 | 故障知识图谱技术落地探索:装备制造故障知识图谱构建及其应用案例剖析总结...

故障知识图谱是当前面向装备制造领域的落地重要探索领域,如何通过对设备的运行状态、运行日志进行信息抽取、关系建模,建成可供分析应用的知识库,并支撑故障诊断、维修辅助等应用场景,具有重要意义。鉴于当前还未有系统性的开源相…

聊聊Spring Cloud版本的那些事儿

继续昨天说的计划,解惑一下收到比较多的问题。 有朋友问“为什么在很多文章中,大家引用的Spring版本名字都不一样呢?比如:Angel.SR6,Brixton.SR5等等,它们都有什么区别呢?”,今天我…

小样本学习只是一场学术界自嗨吗

文 | ALme知乎这两年看见很多人,包括我实习的mentor在内,都在批评few-shot learning,觉得是学术界在自high,思考良久,感觉有必要给这个领域正个名~(注意,此答案仅关注few-shot image classifica…

Spring Cloud构建微服务架构(六)高可用服务注册中心

近期因工作原因减缓了更新频率,同时为了把Spring Cloud中文社区搭建起来也费了不少时间,几乎每天都在挤牙膏般的凑时间出来做一些有意义的事。未能按原计划更新博文,在此对持续关注我博客的朋友们深表歉意。 之前在写Spring Cloud系列文章的…

技术动态 | 「可解释知识图谱推理」最新方法综述

转载公众号 | 专知近年来,以深度学习模型为基础的人工智能研究不断取得突破性进展,但其大多具有黑盒性,不 利于人类认知推理过程,导致高性能的复杂算法、模型及系统普遍缺乏决策的透明度和可解释性。在国 防、医疗、网络与信息安全…

ACL'22 | 陈丹琦提出CoFi模型剪枝,加速10倍,精度几乎无损

文 | jxyxiangyu我们都知道,为了让以深度神经网络为基础的模型更快地训练,人们提出了单机多卡、多机多卡等分布式训练的方式,那么,在模型预测推理阶段,有什么方法可以加速推理呢?遗憾的是,并行/…

LeetCode 第 19 场双周赛(231 / 1120,前20.6%)

文章目录1. 比赛结果2. 题目LeetCode 5311. 将数字变成 0 的操作次数 easyLeetCode 5312. 大小为 K 且平均值大于等于阈值的子数组数目 mediumLeetCode 5313. 时钟指针的夹角 mediumLeetCode 5314. 跳跃游戏 IV hard1. 比赛结果 做出来了1, 3, 4题,第2题结束后12分…

【Spring Cloud中文社区】正式启动

前段时间,开了个关于Spring Cloud的交流群,短短两周时间就聚集了一批爱好者与实践者,每天在交流群中大家都进行着各种不同深度的探讨,但是这些高质量的聊天记录无法被搜索引擎收纳,导致很多不错的研究内容无法分享给网…

图谱实战 | 无本体约束的开放知识图谱构建:以OpenIE为代表的开放信息抽取项目技术方案解读...

目前,本体一直是知识图谱落地过程中的容易受到抨击的点,很多非专业用户对图谱的需求,其实并不想花费大量的时间去做本体约束,而是想直接拿来就用,开箱即用,以达到搜索与分析等目的。对本体的强专业性门槛&a…

计算机视觉,凉了?

计算机视觉是人工智能的关键领域之一,是一门研究如何使机器“看”的科学。近年来,尽管计算机视觉技术在学术上取得了长足的进步,但由于缺少“现金牛”应用,经常在网络上出现“计算机视觉凉凉了”的言论。其实这种观点是非常片面的…

LeetCode 1346. 检查整数及其两倍数是否存在(哈希)

1. 题目 给你一个整数数组 arr&#xff0c;请你检查是否存在两个整数 N 和 M&#xff0c;满足 N 是 M 的两倍&#xff08;即&#xff0c;N 2 * M&#xff09;。 更正式地&#xff0c;检查是否存在两个下标 i 和 j 满足&#xff1a; i ! j0 < i, j < arr.lengtharr[i]…