扩散模型又杀疯了!这一次被攻占的领域是...

b7e7950d9726477b1283e193a313165c.png

文 | Yimin_饭煲

从2020年的初出茅庐,到2021年的日趋火热,再到2022年的大放异彩,扩散模型(Diffusion Models) 正在人工智能学术界和工业界获取越来越多的关注。

如果还不是特别了解扩散模型的朋友,可以阅读卖萌屋的几篇历史推文《扩散模型在图像生成领域大火,风头超过GAN?》《年末回顾:2021年 AI 领域十大研究趋势及必读论文》

扩散模型最早在图像生成领域大火,随后扩展到了其他连续域,例如语音、视频、点云数据,最近Google发布的用于文本到图像生成的GLIDE模型,更是让扩散模型从AI圈内火到了圈外。

不过,虽然扩散模型的热度极高,但是面向离散变量的扩散模型的性能一直欠佳,特别是在语言,图等结构当中。

最近,斯坦福大学自然语言处理研究组在利用扩散模型解决自然语言处理问题中取得了新的进展。

具体说来,在可控自然语言生成任务上,研究者们利用连续扩散模型,对预训练的语言生成模型进行可插拔的操控,就能够在许多任务上达到甚至超过Fine-Tuning的效果,大幅度超越了之前的工作。

这篇工作从方法和实验上都非常的新颖和扎实,短短一周就已经在Twitter上收获了千赞,在Github上收获了140个stars。

下面,就让我们一起来了解这篇扩散模型在语言领域的应用工作吧,说不定也能给你的领域带来启发呢~

984710c4f7bb9e076c0ce3c85d8a1084.png

论文标题:
Diffusion-LM Improves Controllable Text Generation
论文链接:
https://arxiv.org/pdf/2205.14217.pdf

问题背景

首先,我们先来了解一下可控语言生成任务。语言生成任务指的是,给定语言模型, 其中是词汇的序列,自回归语言模型可以表示为:

402 Payment Required

可控语言生成指的是,给定控制变量,例如语法结构,情感,生成词汇序列。

一般来说,估计的方式是,训练一个从词汇序列到控制变量的分类器,然后利用贝叶斯公式。

优化的作用是使得输出流利,优化的作用是使得满足控制变量的约束。

主要方法

扩散模型的基本设置

a1dcadf2b7e3b7c408d677a085f09684.png

将数据定义为,定义为一个满足高斯分布的随机变量。

定义一个马尔可夫过程,状态转移方程为:

402 Payment Required

其中和由U-Net或者Transformer估计。

为了训练扩散模型,我们需要定义前向和后向两个过程,前向过程为加噪声过程, 其中表示在第步扩散时添加的噪声,前向过程不包含可训练的参数,只提供一个将原始数据扩散为噪声的过程。

扩散模型的优化目标是最大化边缘概率分布, 可以转化为变分下界损失函数:

402 Payment Required

不过这一变分下届在实际中优化比较不稳定,因此一般使用如下的简化方式进行优化:

其中是后验分布的平均值,而是利用神经网络预测的的均值。

已有的工作已经说明了这一优化目标的有效性。

Diffusion LM的端到端训练

为了将连续的扩散模型应用到离散文本上,首先定义离散文本的Embedding函数将每个词语映射到一个连续向量。

因此在扩散模型训练,在前向过程中需要多加入一步从离散词汇映射到连续向量, 在反向过程中,加入一步从连续向量映射到离散词汇, 这一步通过Softmax分类实现。

最后可以将Diffusion LM的训练目标转换为如下的形式:

402 Payment Required

Diffusion LM的解码和生成

Diffusion LM的可控生成等价于从后验分布中解码, 在每一步扩散中,优化目标为:

402 Payment Required

由于马尔科夫链的一阶相关性,在第步可以使用如下的梯度优化方式,为了保证生成文本的流利性,作者们还使用了一些正则化的技巧:

402 Payment Required

为了提升生成的输出的质量,作者们还使用了在机器翻译中常用的最小贝叶斯风险(MBR)解码方式。

实验结果

396cbda2c8ea3651842f69a731c55cbc.png

作者们在情感控制,可控语法生成等任务上开展了实验,和PPLM,FUDGE等可插拔式方法进行对比,可以发现Diffusion-LM相比之前的同类方法有极为显著的提升,特别是在部分任务上,甚至可以达到和微调相似的结果。

946618bdc90084af7aea3ba780874747.png

组合控制是可控文本生成的另一个常见场景。给定关于多个独立任务的控制条件,要求模型生成满足多个控制条件的文本。

Diffusion LM在这一场景下也表现出了更好的控制成功率。

fe8d15802af7bc4e91a3dee37aca4a2a.png

在句子填充任务(给定左边文本和右边文本,输出中间的内容连接两段文本)上,Diffusion LM显著超越了之前的工作COLD和Delorean, 并且达到了和从头训练的自回归语言模型相近的效果。

结语

扩散模型受到了非平衡热力学的启发,具有良好的数学表达形式。在图像生成任务上优秀的性能证实了其不是徒有虚表的“花瓶”,而是深度学习时代的一大杀器。

尽管扩散模型仍然具有计算时间长等问题,我们仍可以期待其在更多模态的数据和任务上取得惊人的表现!

65b9876c6f592a995e69bb1007999ce7.png萌屋作者:Yimin_饭煲

在微软NLC组搬砖的联培博士生,爱好摄影和运动,希望卖萌屋早日开通视频业务,我来当摄影师!

作品推荐

  1. 学完文本知识,我就直接看懂图片了!

  2. 别再Prompt了!谷歌提出tuning新方法,强力释放GPT-3潜力

  3. 大模型炼丹无从下手?谷歌、OpenAI烧了几百万刀,总结出这些方法论…

457db87889ab9d3b69b52e6a4f55a13b.png后台回复关键词【入群

加入卖萌屋NLP、CV、搜广推与求职讨论群

后台回复关键词【顶会

获取ACL、CIKM等各大顶会论文集!

fad79edbe0e2fed628bba3810950cdf2.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477232.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

程序员面试金典 - 面试题 01.04. 回文排列(哈希map)

1. 题目 给定一个字符串,编写一个函数判定其是否为某个回文串的排列之一。 回文串是指正反两个方向都一样的单词或短语。排列是指字母的重新排列。 回文串不一定是字典当中的单词。 示例1: 输入:"tactcoa" 输出:tru…

Spring Boot中对log4j进行多环境不同日志级别的控制

之前介绍了在《Spring boot中使用log4j记录日志》,仅通过log4j.properties对日志级别进行控制,对于需要多环境部署的环境不是很方便,可能我们在开发环境大部分模块需要采用DEBUG级别,在测试环境可能需要小部分采用DEBUG级别&#…

耗时四年,我们写了一本1400页的AI全栈技术手册

不知不觉写文章已经四年了。最开始是一个人,后来恰了恰饭,就招揽了很多比小夕厉害的小伙伴一起写。不知不觉已经积累了300多篇了。。三年以来,我跟小伙伴们原创的300篇深度学习、NLP、CV、知识图谱、跨模态等领域的入门资料、子方向综述、201…

程序员面试金典 - 面试题 01.06. 字符串压缩(字符串)

1. 题目 字符串压缩。利用字符重复出现的次数,编写一种方法,实现基本的字符串压缩功能。比如,字符串aabcccccaaa会变为a2b1c5a3。若“压缩”后的字符串没有变短,则返回原先的字符串。你可以假设字符串中只包含大小写英文字母&…

Spring Boot中使用@Async实现异步调用

什么是“异步调用”? “异步调用”对应的是“同步调用”,同步调用指程序按照定义顺序依次执行,每一行程序都必须等待上一行程序执行完成之后才能执行;异步调用指程序在顺序执行时,不等待异步调用的语句返回结果就执行…

谷歌HuggingFace| 零样本能力最强的语言模型结构

文 | iven从 GPT3 到 Prompt,越来越多人发现大模型在零样本学习(zero-shot)的设定下有非常好的表现。这都让大家对 AGI 的到来越来越期待。但有一件事让人非常疑惑:19 年 T5 通过“调参”发现,设计预训练模型时&#x…

程序员面试金典 - 面试题 01.07. 旋转矩阵(一次遍历+位运算)

1. 题目 给定一幅由N N矩阵表示的图像,其中每个像素的大小为4字节,编写一种方法,将图像旋转90度。 不占用额外内存空间能否做到? 示例 1: 给定 matrix [[1,2,3],[4,5,6],[7,8,9] ],原地旋转输入矩阵,使其变为: […

Spring Boot中使用@Scheduled创建定时任务

我们在编写Spring Boot应用中经常会遇到这样的场景,比如:我需要定时地发送一些短信、邮件之类的操作,也可能会定时地检查和监控一些标志、参数等。 创建定时任务 在Spring Boot中编写定时任务是非常简单的事,下面通过实例介绍如…

从二本到ICLR杰出论文奖,我用了20年

文 | 李梅编 | 陈彩娴源 | AI科技评论二本出身,读了两个硕士才在29岁开始读博,39岁才结束博士后研究的付杰形容,他的20年就像个体与系统的博弈:一些机器学习的文章中,研究者会根据训练初始阶段 Training Curve&#xf…

Spring Boot属性配置文件详解

相信很多人选择Spring Boot主要是考虑到它既能兼顾Spring的强大功能,还能实现快速开发的便捷。我们在Spring Boot使用过程中,最直观的感受就是没有了原来自己整合Spring应用时繁多的XML配置内容,替代它的是在pom.xml中引入模块化的Starter PO…

程序员面试金典 - 面试题 01.08. 零矩阵

1. 题目 编写一种算法,若M N矩阵中某个元素为0,则将其所在的行与列清零。 示例 1: 输入: [[1,1,1],[1,0,1],[1,1,1] ] 输出: [[1,0,1],[0,0,0],[1,0,1] ]示例 2: 输入: [[0,1,2,0],[3,4,5,2]…

AI帮写代码67元/月!

整理 | 彭慧中责编 | 屠敏出品 | CSDN如今,人工智能已经逐渐习惯充当人类生活中“副驾驶”位置上的角色。它帮助我们打扫卫生、撰写文稿、回复消息、路线导航....但在此之前,人工智能在改进代码方面还止步不前,以至于多少人还在为绞尽脑汁写代…

Spring Boot中Web应用的统一异常处理

我们在做Web应用的时候,请求处理过程中发生错误是非常常见的情况。Spring Boot提供了一个默认的映射:/error,当处理中抛出异常之后,会转到该请求中处理,并且该请求有一个全局的错误页面用来展示异常内容。 选择一个之…

统计学习及监督学习概论

文章目录1. 统计学习2. 统计学习分类2.1 基本分类2.1.1 监督学习 supervised learning2.1.2 无监督学习 unsupervised learning2.1.3 强化学习 reinforcement learning2.1.4 半监督学习 semi-supervised learning、主动学习 active learning2.2 按模型分类2.3 按算法分类2.4 按…

BERT为何无法彻底干掉BM25??

文 | QvQ近些年来,相比传统检索模型,大规模预训练式transformers结构的引入在各类任务上都有显著的提升。而这种提升在不同的数据集上有着特殊的模型设置,而当前依旧无法充分理解这些模型为什么以及如何可以更好的工作。古人云:知…

Spring Boot中使用MongoDB数据库

前段时间分享了关于Spring Boot中使用Redis的文章,除了Redis之后,我们在互联网产品中还经常会用到另外一款著名的NoSQL数据库MongoDB。 下面就来简单介绍一下MongoDB,并且通过一个例子来介绍Spring Boot中对MongoDB访问的配置和使用。 Mong…

程序员面试金典 - 面试题 01.09. 字符串轮转

1. 题目 字符串轮转。给定两个字符串s1和s2,请编写代码检查s2是否为s1旋转而成(比如,waterbottle是erbottlewat旋转后的字符串)。 示例1:输入:s1 "waterbottle", s2 "erbottlewat"输出&#x…

谷歌HuggingFace | 零样本能力最强的语言模型结构

从 GPT3 到 Prompt,越来越多人发现大模型在零样本学习(zero-shot)的设定下有非常好的表现。这都让大家对 AGI 的到来越来越期待。但有一件事让人非常疑惑:19 年 T5 通过“调参”发现,设计预训练模型时,Enco…

Spring Boot中使用Redis数据库

Spring Boot中除了对常用的关系型数据库提供了优秀的自动化支持之外,对于很多NoSQL数据库一样提供了自动化配置的支持,包括:Redis, MongoDB, Elasticsearch, Solr和Cassandra。 使用Redis Redis是一个开源的使用ANSI C语言编写、支持网络、…

程序员面试金典 - 面试题 02.01. 移除重复节点(哈希set)

1. 题目 编写代码,移除未排序链表中的重复节点。保留最开始出现的节点。 示例1:输入:[1, 2, 3, 3, 2, 1]输出:[1, 2, 3]示例2:输入:[1, 1, 1, 1, 2]输出:[1, 2]提示: 链表长度在[0, 20000]范围内。 链表元…