大火的扩散模型终于杀到了NLP领域

从2020年的初出茅庐,到2021年的日趋火热,再到2022年的大放异彩,扩散模型(Diffusion Models) 正在人工智能学术界和工业界获取越来越多的关注。

如果还不是特别了解扩散模型的朋友,可以阅读卖萌屋的几篇历史推文《扩散模型在图像生成领域大火,风头超过GAN?》, 《年末回顾:2021年 AI 领域十大研究趋势及必读论文》。

扩散模型最早在图像生成领域大火,随后扩展到了其他连续域,例如语音、视频、点云数据,最近Google发布的用于文本到图像生成的GLIDE模型,更是让扩散模型从AI圈内火到了圈外。

不过,虽然扩散模型的热度极高,但是面向离散变量的扩散模型的性能一直欠佳,特别是在语言,图等结构当中。

最近,斯坦福大学自然语言处理研究组在利用扩散模型解决自然语言处理问题中取得了新的进展。

具体说来,在可控自然语言生成任务上,研究者们利用连续扩散模型,对预训练的语言生成模型进行可插拔的操控,就能够在许多任务上达到甚至超过Fine-Tuning的效果,大幅度超越了之前的工作。

这篇工作从方法和实验上都非常的新颖和扎实,短短一周就已经在Twitter上收获了千赞,在Github上收获了140个stars。

下面,就让我们一起来了解这篇扩散模型在语言领域的应用工作吧,说不定也能给你的领域带来启发呢~

f831353e6d242c1018a780afc8fbb1bb.jpeg

论文标题:
Diffusion-LM Improves Controllable Text Generation

链接:
arxiv.org/pdf/2205.1421

声明:本文原创首发于公众号“夕小瑶的卖萌屋”,作者:Yimin_饭煲
传送门:夕小瑶的卖萌屋,内含海量NLP论文综述、论文解读、入门资料等,一个每日每月挖掘重磅前沿论文的神器,以及聚集数万NLPer、CVer和算法工程师的技术交流群~

问题背景

首先,我们先来了解一下可控语言生成任务。语言生成任务指的是,给定语言模型

p_{lm}(\textbf{w}) , 其中
\textbf{w}=[w_1,w_2,...,w_n] 是词汇的序列,自回归语言模型可以表示为

p_{lm}(\textbf{w})=p_{lm}(w_n|w_{1,2,...,n-1})p_{lm}(w_{n-1}|w_{1,2,...,n-2})...p_{lm}(w_1)

可控语言生成指的是,给定控制变量

c ,例如语法结构,情感,生成词汇序列
p(w|c)

一般来说,估计

p(w|c) 的方式是,训练一个从词汇序列
w 到控制变量
c 的分类器
p(c|w) ,然后利用贝叶斯公式
p(\textbf{w}|c)\propto p_{lm}(\textbf{w})p(c|\textbf{w})
优化
p_{lm}(\textbf{w})
的作用是使得输出流利,优化
p(c|\textbf{w})
的作用是使得
\textbf{w}
满足控制变量的约束。

主要方法

扩散模型的基本设置

a178302522d6dd29a85fc8f27e63b7ab.png

将数据定义为

\textbf{x}{0}\in R^d
,定义
\textbf{x}{T} 为一个满足高斯分布的随机变量
p_{\theta}(\textbf{x}T)=N(0,I)
。定义一个马尔可夫过程
\textbf{x}{T}...\textbf{x}{0}
,状态转移方程为
p(\textbf{x}{t-1}|\textbf{x}{t})=N(\textbf{x}{t-1};\mu_{\theta}(\textbf{x}t,t),\Sigma{\theta}(\textbf{x}t,t))
,其中
\mu{\theta}
\Sigma_{\theta} 由U-Net或者Transformer估计。为了训练扩散模型,我们需要定义前向和后向两个过程,前向过程为加噪声过程
q(\textbf{x}t|\textbf{x}{t-1})=N(\textbf{x}t;\sqrt{1-\beta_t}\textbf{x}{t-1},\beta_t\textbf{I}) , 其中
\beta_t 表示在第
t 步扩散时添加的噪声,前向过程
q 不包含可训练的参数,只提供一个将原始数据扩散为噪声的过程。扩散模型的优化目标是最大化边缘概率分布
E_{\textbf{x}0\sim p{data}}[\log p_{\theta}(\textbf{x}_0)] , 可以转化为变分下界损失函数

L_{vlb}(\textbf{x}_0)=E_{q(\textbf{x}_{1:T}|\textbf{x}_0)}[\log\frac{q(\textbf x_T|\textbf x_0)}{p_{\theta}(\textbf x_T)}+\sum_{t=2}^T\log\frac{q(\textbf x_{t-1}|\textbf x_0, \textbf x_t)}{p_{\theta}(\textbf x_{t-1}|\textbf x_t)}-\log p_{\theta}(\textbf x_0|\textbf x_1)]

不过这一变分下届在实际中优化比较不稳定,因此一般使用如下的简化方式进行优化、

L_{simple}\sum_{t=1}^TE_{q(\textbf x_t|\textbf x_0)}||\mu_{\theta}(\textbf x_t,t)-\hat \mu(\textbf x_t,\textbf x_0)||^2 其中
\hat \mu(\textbf x_t,\textbf x_0) 是后验分布
q(\textbf x_{t-1}|\textbf x_0, \textbf x_t) 的平均值,而
\mu_{\theta}(\textbf x_t,t) 是利用神经网络预测的
p_\theta(\textbf x_{t-1}|\textbf x_t) 的均值。已有的工作已经说明了这一优化目标的有效性。

Diffusion LM的端到端训练

为了将连续的扩散模型应用到离散文本上,首先定义离散文本的Embedding函数

EMB(\textbf w_i) 将每个词语映射到一个连续向量。因此在扩散模型训练,在前向过程中需要多加入一步从离散词汇映射到连续向量
q_\phi(\textbf x_0|\textbf w)=N(EMB(\textbf w, \sigma_0I) , 在反向过程中,加入一步从连续向量映射到离散词汇
p_\theta(\textbf w|\textbf x_0) , 这一步通过Softmax分类实现。最后可以将Diffusion LM的训练目标转换为如下的形式
L_{vlb}^{e2e}(\textbf w)=E_{q_\phi(\textbf x_0|\textbf w)}[L_{vlb}(\textbf x_0)+\log q_\phi(\textbf x_0|\textbf w)-\log p_{\theta}(\textbf w|\textbf x_0)]

L_{simple}^{e2e}(\textbf w)=E_{q_\phi(\textbf x_{0:T}|\textbf w)}[L_{simple}(\textbf x_0)+||EMB(\textbf w)-\mu_\theta(\textbf x_1,1)||-\log p_{\theta}(\textbf w|\textbf x_0)]

Diffusion LM的解码和生成

Diffusion LM的可控生成等价于从后验分布

p(\textbf x_{0:T}|c) 中解码, 在每一步扩散中,优化目标为
p(\textbf x_{t-1}|\textbf x_t,c)\propto p(\textbf x_{t-1}|\textbf x_t)p(\textbf c|\textbf x_{t-1},\textbf x_t) , 由于马尔科夫链的一阶相关性,在第
t 步可以使用如下的梯度优化方式,为了保证生成文本的流利性,作者们还使用了一些正则化的技巧。
\nabla_{\textbf x_{t-1}} \log p(\textbf x_{t-1}|\textbf x_t,c)=\nabla_{\textbf x_{t-1}} \log p(\textbf x_{t-1}|\textbf x_t) + \nabla_{\textbf x_{t-1}} \log p(c|\textbf x_{t-1}) 为了提升生成的输出的质量,作者们还使用了在机器翻译中常用的最小贝叶斯风险(MBR)解码方式。

实验结果


a73b19dc650e2b6ca2ab92cd74c28b63.jpeg

作者们在情感控制,可控语法生成等任务上开展了实验,和PPLM,FUDGE等可插拔式方法进行对比,可以发现Diffusion-LM相比之前的同类方法有极为显著的提升,特别是在部分任务上,甚至可以达到和微调相似的结果。


c2b9c2cad2e67085484967fe39440780.jpeg

组合控制是可控文本生成的另一个常见场景。给定关于多个独立任务的控制条件,要求模型生成满足多个控制条件的文本。Diffusion LM在这一场景下也表现出了更好的控制成功率。

bb32518c943452e71e74c52e7da5c92e.jpeg

在句子填充任务(给定左边文本

O_1 和右边文本
O_2 ,输出中间的内容连接两段文本)上,Diffusion LM显著超越了之前的工作COLD和Delorean, 并且达到了和从头训练的自回归语言模型相近的效果。

结语

扩散模型受到了非平衡热力学的启发,具有良好的数学表达形式。在图像生成任务上优秀的性能证实了其不是徒有虚表的“花瓶”,而是深度学习时代的一大杀器。尽管扩散模型仍然具有计算时间长等问题,我们仍可以期待其在更多模态的数据和任务上取得惊人的表现!

声明:本文原创首发于公众号“夕小瑶的卖萌屋”,作者:Yimin_饭煲
传送门:夕小瑶的卖萌屋,内含海量NLP论文综述、论文解读、入门资料等,一个每日每月挖掘重磅前沿论文的神器,以及聚集数万NLPer、CVer和算法工程师的技术交流群~

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477205.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot中使用Spring-data-jpa让数据访问更简单、更优雅

在上一篇Spring中使用JdbcTemplate访问数据库 中介绍了一种基本的数据访问方式,结合构建RESTful API和使用Thymeleaf模板引擎渲染Web视图的内容就已经可以完成App服务端和Web站点的开发任务了。 然而,在实际开发过程中,对数据库的操作无非就…

AI终于攻陷了数学领域!高数考试超过普通博士??

文 | 梦晨 丰色 发自 凹非寺源 | 量子位高数考不好,不知道是多少人的噩梦。如果说你高数考得还不如AI好,是不是就更难以接受了?没错,来自OpenAI的Codex已经在MIT的7门高数课程题目中正确率达到81.1%,妥妥的MIT本科生水…

十年内就能实现通用人工智能?先把组合泛化研究明白吧!

文 | Albert Yang编 | 白鹡鸰"乌鸦为什么像写字台?"因为它们都能produce a few notes (鸟叫/笔记),因为乌鸦和写字台都是思想与记忆的象征(北欧神话),又或者因为,这本身就…

LeetCode 1366. 通过投票对团队排名(自定义排序)

1. 题目 现在有一个特殊的排名系统,依据参赛团队在投票人心中的次序进行排名,每个投票者都需要按从高到低的顺序对参与排名的所有团队进行排位。 排名规则如下: 参赛团队的排名次序依照其所获「排位第一」的票的多少决定。如果存在多个团队…

Spring Boot中使用JdbcTemplate访问数据库

之前介绍了很多Web层的例子,包括构建RESTful API、使用Thymeleaf模板引擎渲染Web视图,但是这些内容还不足以构建一个动态的应用。通常我们做App也好,做Web应用也好,都需要内容,而内容通常存储于各种类型的数据库&#…

LeetCode 1367. 二叉树中的列表(双重递归)

1. 题目 给你一棵以 root 为根的二叉树和一个 head 为第一个节点的链表。 如果在二叉树中,存在一条一直向下的路径,且每个点的数值恰好一一对应以 head 为首的链表中每个节点的值,那么请你返回 True ,否则返回 False 。 一直向…

Spring Boot构建RESTful API与单元测试

首先,回顾并详细说明一下在快速入门中使用的Controller、RestController、RequestMapping注解。如果您对Spring MVC不熟悉并且还没有尝试过快速入门案例,建议先看一下快速入门的内容。 Controller:修饰class,用来创建处理http请…

推荐系统用户反馈延迟新解法!阿里提出CVR无偏估计算法

文 | Shona在广告、电商场景中,流式样本通常只会在一个较短的窗口采样用户的行为,但用户从点击到转化的时间窗口可能很长,比如逛淘宝时,点击一件商品后可能在其他平台对比很久后才会下单,这导致在流式样本采样的时间窗…

LeetCode 1368. 使网格图至少有一条有效路径的最小代价(BFS最短路径,难)

1. 题目 给你一个 m x n 的网格图 grid 。 grid 中每个格子都有一个数字,对应着从该格子出发下一步走的方向。 grid[i][j] 中的数字可能为以下几种情况: 1 ,下一步往右走,也就是你会从 grid[i][j] 走到 grid[i][j 1]2 &#xf…

Spring Boot工程结构推荐

今天看了一位简书上朋友发来的工程,于是想到应该要写这么一篇。前人总结的最佳实践案例可以帮助我们免去很多不必要的麻烦。花点时间来看一下本文,绝对物超所值。 工程结构(最佳实践) Spring Boot框架本身并没有对工程结构有特别…

GPT-3写了一篇论文

文 | Pine 发自 凹非寺源 | 量子位咦?这篇论文有点不对劲,第一作者看起来不像是人类的名字:一作的署名GPT-3,所属单位OpenAI。是的!你没看错,GPT-3写了一篇关于自己的论文。此前,GPT-3已经撰写过…

程序员面试金典 - 面试题 02.03. 删除中间节点

1. 题目 实现一种算法,删除单向链表中间的某个节点(除了第一个和最后一个节点,不一定是中间节点),假定你只能访问该节点。 示例: 输入:单向链表a->b->c->d->e->f中的节点c 结果…

Spring Boot开发Web应用

Spring Boot快速入门中我们完成了一个简单的RESTful Service,体验了快速开发的特性。在留言中也有朋友提到如何把处理结果渲染到页面上。那么本篇就在上篇基础上介绍一下如何进行Web应用的开发。 静态资源访问 在我们开发Web应用的时候,需要引用大量的j…

双塔模型的最强出装,谷歌又开始玩起“老古董”了?

文 | 兔子酱双塔模型已经证明在搜索和问答任务中是非常有效的建模方法,理论和业务落地已相当成熟。双塔根据参数共享程度不同,通常会归纳成两类:Simese dual encoder和Asymmetric dual encoder,前者参数结构完全对称,后…

LintCode解题目录

看见 LintCode 的代码能力测试CAT(Coding Ability Test)挺好,有倒计时,挺有面试紧迫感。做个记录。 另有本人 LeetCode解题目录、《程序员面试金典》解题目录、《剑指Offer》解题目录 我的 LintCode 主页 75 / 1505 算法问题 …

BERTopic:NLP主题模型的未来!

文| ZenMoore编| 小轶以前我一直以为,主题建模(提取文档的主题词)这种机器学习时代就开始研究的基础工具,现在肯定已经到头了,虽然...有时效果可能不是那么让人满意。但突然看到一则推文:“彻底疯了!不需要预先清洗数据…

K 近邻法(K-Nearest Neighbor, K-NN)

文章目录1. k近邻算法2. k近邻模型2.1 模型2.2 距离度量2.2.1 距离计算代码 Python2.3 kkk 值的选择2.4 分类决策规则3. 实现方法, kd树3.1 构造 kdkdkd 树Python 代码3.2 搜索 kdkdkd 树Python 代码4. 鸢尾花KNN分类4.1 KNN实现4.2 sklearn KNN5. 文章完整代码k近邻法&#xf…

通用人工智能可行吗?组合泛化视角漫谈

"乌鸦为什么像写字台?"因为它们都能produce a few notes (鸟叫/笔记),因为乌鸦和写字台都是思想与记忆的象征(北欧神话),又或者因为,这本身就是一句没有道理的话&#xff…

Transformer 在美团搜索排序中的实践

引言 美团搜索是美团 App 连接用户与商家的一种重要方式,而排序策略则是搜索链路的关键环节,对搜索展示效果起着至关重要的效果。目前,美团的搜索排序流程为多层排序,分别是粗排、精排、异构排序等,多层排序的流程主要…

ACL‘22杰出论文:Prompt范式有bug!

‍文 | pythonGPT-3等超大模型的兴起,也带来了 in-context learning (语境学习)的新范式。在语境学习中,模型并不使用梯度下降,根据监督样本调整参数;而是将监督样本的输入输出接起来作为prompt&#xff08…