2018 年,NLP 研究与应用进展到什么水平了?

AI 前线导读:

随着人工智能的再次兴起,尤其是深度学习的成功应用,自然语言处理(NLP)也逐渐受到了科研研所、高校以及相关企业的关注,也成为了人工智能重点研究的课题之一。NLP 的主要目标是解决人机对话中的各种困难,使得计算机能够理解人类的语言,让用户能用自己的语言与计算机沟通。

最近几年 NLP 的高速发展,其相关技术和应用都取得辉煌的成绩,清华大学的 Aminer 团队在 2018 年 7 月发布了 NLP 研究报告,从 NLP 的概念、技术、人才、应用以及发展趋势五个方面总结 NLP 的发展历程和所取得成绩。那么,在过去这一年中,NLP 取得了哪些发展呢?

提到 2018 年自然语言处理(NLP)的成就,BERT 将会首先映入眼帘,其性能横扫了多种不同的 NLP 测试,被誉为 NLP 新时代的开端。然而,2018 年并不是只有 BERT,无论是学术研究还是在企业应用,同样还有许多激动人心的想法和让人眼前一亮的应用。

本文是 AI 前线年终盘点自然语言处理专题系列文章之技术与应用篇,我们将逐一盘点和总结这些想法和应用。

更多优质内容请关注微信公众号“AI 前线”(ID:ai-front)

学术研究

学术研究是技术发展的先行者,我们首先来看看 2018 年 NLP 学术研究都有哪些令人激动的想法。爱尔兰的 NLP 研究科学家 Sebastian Ruder 盘点了 2018 年 NLP 领域的十大想法,在保留其原文的框架基础上,我们对内容进行了重新编辑和补充。

1) 无监督机器翻译(Unsupervised MT)

EMNLP 2018 上,Guillaume Lample 等人提炼出了无监督机器翻译的三个关键方法:良好的初始化、语言建模和逆向任务建模 (通过反向翻译),大幅改进了之前的研究方法,无监督机器翻译获得了重大进展。这三个方法在其他无监督场景中也有用。逆向任务建模可以增强循环一致性,这种一致性已经在不同的方法中得到应用,在 CycleGAN 中最为突出。

2) 预训练语言模型(Pretrained language models)

这是 NLP 领域今年最重要的发展趋势。有很多令人难忘的方法:ELMo、ULMFiT、OpenAI Transformer 和 BERT。这里主要介绍 ELMo 和 BERT 两个模型。
ELMo(语言模型的词嵌入):出自艾伦人工智能研究院和华盛顿大学的论文“Deep contextualized word representations”,NLP 顶会 NAACL HLT 2018 的优秀论文之一,受到了广泛好评。ELMo 用语言模型来获取词嵌入,同时也把词语所处句、段的语境考虑进来。这种语境化的词语表示,能够体现一个词在语法语义用法上的复杂特征,也能体现它在不同语境下如何变化。除了实证结果令人印象深刻之外,最引人注目的是论文的分析部分,它剔除了各种因素的影响,并对在表征中捕获的信息进行了分析。词义消歧分析执行得很好。两者都表明了,语言模型提供的词义消歧和词性标注表现都接近最先进的水平。

BERT:它由 Google 推出,全称是 Bidirectional Encoder Representations from Transformers,意思是来自 Transformer 的双向编码器表示,也是一种预训练语言表示的方法。BERT 模型沿袭了 GPT 模型的结构,采用 Transfomer 的编码器作为主体模型结构。Transformer 舍弃了 RNN 的循环式网络结构,完全基于注意力机制来对一段文本进行建模。模型的主要创新点都在 pre-train 方法上,即用了 Masked LM 和 Next Sentence Prediction 两种方法分别捕捉词语和句子级别的 representation。从性能上来看,没有哪个模型能与 BERT 一战。目前,BERT 在 11 项 NLP 任务上
都取得了最顶尖成绩。

3) 常识推理数据集(Common sense inference datasets)

将常识融入到模型中,是 NLP 最重要的前进方向之一。然而,创建一个好的数据集并不容易,即便是流行的数据集,也存在很大的偏差。而来自于华盛顿大学 Event2Mind 和 SWAG 试图教模型一些常识,虽然 SWAG 很快被 BERT 超越了,但依然是一个很重要的想法。例如首个视觉 QA 数据集“Visual Commonsense Reasoning”,每个答案都包含对答案的解释,且每个问题需要复杂的推理。创作者想尽办法解决可能存在的偏差,确保每个答案的正确率为 25% (每个答案在整个数据集中出现 4 次,错误答案出现 3 次,正确答案出现 1 次)。在创建数据集的过程中,需要使用计算相关性和相似性的模型来解决约束优化问题,以防止可能出现的偏差会成为一个常识。

4) 元学习(Meta-learning)

元学习在少样本学习、强化学习和机器人学习中得到了广泛的应用,最突出的例子是与模型无关的元学习 ( MAML )。但在 NLP 领域,元学习很少有成功的应用。其实在解决样本数量有限的问题上,元学习非常有用,尤其是将多语言迁移学习 (如多语言 BERT )、无监督学习和元学习相结合起来的时候,这是一个非常有希望取得进展的方向。发表于 EMNLP 2018 上的论文“Meta-Learning for Low-Resource Neural Machine Translation”就使用了 MAML,即将每一种“语言对 ”都视为单独的元任务。在 NLP 领域,用来适应资源较少的语言,可能是元学习的最佳用武之地了。

5) 稳健的无监督方法(Robust unsupervised methods)

在迁移学习中,源和目标设置之间的差异 (例如,领域适应、持续学习和多任务学习中的任务) 会导致模型的效果变差或崩溃。即当语言不相似时,无监督的跨语言单词嵌入方法会导致模型崩溃。面对这种变化时,如何让模型更加稳健是很重要的。ACL 2018 的论文“A robust self-learning method for fully unsupervised cross-lingual mappings of word embeddings” 利用他们对问题的理解来设计更好的初始化,而不是将元学习应用到初始化上。比较亮眼的是,他们将两种语言中分布相似的单词配对。这一个例子证明了可以利用领域专业知识和分析见解使模型更加稳健。

6) 理解表征(Understanding representations)

为了更好地理解表征,研究者已经做了很多努力。特别是“诊断分类器”(diagnostic classifiers)(旨在测量学习到的表征能否预测某些属性的任务) 已经变得非常普遍了。在理解表征方面,EMNLP 2018 上论文“Dissecting Contextual Word Embeddings: Architecture and Representation” 精心设计的无监督和有监督的任务中对单词和跨度表征进行了广泛的研究学习。实验结果表明预训练表征学习任务在较低层和较高层比较长的语义范围中,与低层次的形态与句法任务相关。这实际上表明,预训练语言模型,确实捕捉到了与在 ImageNet 上预处理的计算机视觉模型相似的特性。

7) 巧妙的辅助任务(Clever auxiliary tasks)

在许多场景中,越来越多的学者使用多任务学习和精心选择的辅助任务。对于一项好的辅助任务来说,数据必须易于访问。一个最突出的例子是 BERT,它使用下一句预测 (在 Skip-thoughts 中使用过,最近在 Quick-thoughts 使用) 取得了很大的效果。除 BERT 外,发表于 EMNLP 2018 上论文“Syntactic Scaffolds for Semantic Structures” 提出了一个辅助任务,通过预测每个跨度对应的句法成分类型,来预处理跨度表征。尽管从概念上来说很简单,但是辅助任务在推动跨度预测任务出现大幅度改进方面很重要,例如语义角色标注和共指解析。这篇论文证明了,在目标任务所要求的水平上学习专门的表征非常有用。而论文“pair2vec: Compositional Word-Pair Embeddings for Cross-Sentence Inference (arXiv 2018)” 基于相似的脉络,通过最大化“词对”与其语境之间的点互信息来预训练“词对”表征。 这激励了模型去学习更多有意义的“词对”表征,而不是更通用的目标,比如语言建模。对于需要跨句子推理的任务,如 SQuAD MultiNLI,预训练表征是有效的。将来或许可以看到更多的预训练任务,能够捕捉特别适合于某些下游任务的属性,并与更多通用任务 (如语言建模) 相辅相成。

8) 半监督学习和迁移学习结合(Combining semi-supervised learning with transfer learning)

实际上,预训练表征与许多半监督学习表征的方法是互补的。已经有学者探索了自我标注的方法,这是一种特殊类型的半监督学习。论文“Semi-Supervised Sequence Modeling with Cross-View Training (EMNLP 2018)” 展示了一个在概念上非常简单的想法,确保对不同输入观点的预测与主模型的预测一致,可以在不同的任务集合中获得收益。这个想法类似于单词 dropout,但是可以利用未标记的数据来使模型更加稳健。与其他自组合模型相比,它是专门为特定的 NLP 任务设计的。

9) QA 和大型文档推理(QA and reasoning with large documents)

在问答系统中,除了对话式问答和多步推理,问答最具挑战性的方面是综合叙述和处理大体量信息。TACL 2018 上的论文“The NarrativeQA Reading Comprehension Challenge” 基于对整部电影剧本和书籍问题的回答,提出了一个具有挑战性的新 QA 数据集。虽然依靠目前的方法仍无法完成这项任务,但模型可以选择使用摘要 (而不是整本书) 作为语境来选择答案 (而不是生成答案)。这些变体使完成任务更加可行,并使模型能够逐步扩展到完整的语境。

10) 归纳偏差(Inductive bias)

归纳偏差,如 CNN 中的卷积、正则化、dropout 和其他机制,是神经网络模型的核心部分,它们起到调节器的作用,使模型更具样本效率。然而,提出一个应用更加广泛的归纳偏差方法,并将其融入模型是一个挑战。有幸的是在 2018 的研究中有了这一类的相关成果。论文“Sequence classification with human attention (CoNLL 2018)”提出利用视觉跟踪语料库中的人类注意力来规范视觉神经网络中的注意力。考虑到当前许多模型(如 Transformers)也使用注意力,找到更有效地训练它的方法是一个重要的方向。另外, 论文还证明了人类语言学习可以帮助改进计算模型。而 2018 年 EMNLP 上的最佳论文之一“Linguistically-Informed Self-Attention for Semantic Role Labeling”提出了将 multi-head self-attention 与多任务学习相结合的模型,该模型可以仅使用原始的 token 对序列进行一次编码,来同时执行多个预测任务。论文中还通过训练一个注意力头来关注每个 token 的句法父项,使 Transformer 的多头注意力对句法更加敏感。

总体说来,NLP 作为认知智能的重要组成部分,依然是人工智能领域研究的重要课题,而 2018 年也取得了成绩,也让我们对未来 NLP 研究充满了希望。

商业应用

伴随着 NLP 研究的不断深入,其应用也变得越来越广泛,尤其是在知识图谱、机器翻译、阅读理解和智能写作等方面都有较为成熟的应用。

由于知识图谱能够让人工智能具备认知能力和逻辑能力,进而实现智能分析、智能搜索、人机交互等场景应用,而这一优势使得知识图谱可以应用于科研、金融、医疗、司法、公共安全等各个领域。2018 年以来,百度应用知识图谱率,实现了智能搜索;阿里健康启动医学知识图谱,与国家级医疗健康大数据平台等机构在京宣布启动医学智库“医知鹿”,而腾讯也推出了首款医疗 AI 引擎“腾讯睿知”发力智能导诊;美团通过构建其知识图谱实现以实现智能化的生活服务;招商银行总行的知识图谱项目也成果落地上线,预示着知识图谱在金融领域的应用正不断成熟;而在汽车领域,汽车之家通过构建汽车领域知识图谱,为其 APP“家家小秘”实现了图谱问答。总之,知识图谱的行业应用,会让内容更加精准,服务更加智能,也逐渐成为了各领域的数据和技术核心。

随着深度学习在机器翻译的成功应用,以及实时的语音转文字和文字转语音功能的成熟,模型翻译的水平得到了很大的提高,很大程度上的解决了对话中的翻译问题。为此,翻译机在 2018 年成为了人们关注的热点,除了之前我们熟悉的谷歌、百度、网易等在线翻译外,2018 年 6 月 13 日,谷歌发布离线神经机器翻译技术( Neural Machine Translation),使得离线状态下 ,也能用 AI 翻译,且支持 59 种语言;2018 年 9 月,网易有道自研离线神经网络翻译技术,并应用于发布的翻译智能硬件“有道翻译王 2.0Pro”;2018 年 9 月,搜狗推出最新款时尚 AI 翻译机——搜狗翻译宝 Pro,支持 42 种语言实时互译及中英日韩 4 种语言离线翻译;2018 年 10 月,百度推出实时将英语翻译成中文和德语的人工智能即时翻译工具。机器翻译作为 NLP 最为人知的应用场景,其产品正逐渐成为人们生活的必需品,因此机器翻译任然蕴含着巨大的市场价值,让众多厂商为之心动,同时也必然会使得机器翻译越来越成熟。

阅读理解方作为复杂的 NLP 技术之一,受到了广大学者和企业的关注,同时也已经开始商业化。2018 年 8 月,“考拉阅读”宣布完成融资 2000 万美金,并将此次融资用于考拉阅读原创“中文分级阅读系统 ER Framework”的优化升级、优质阅读内容的生产聚合及市场规模的扩大;在近期举办的 MS MARCO 文本阅读理解挑战赛中,阿里 AI 模型在英文阅读理解比赛中超过了微软、百度等研究机构,排名第一,而这一技术也已经大规模应用与淘宝、天猫以及东南亚电商 Lazada 等产品中。阅读理解作为继语音判断和语义理解之后的又一主要挑战,需要模型理解全文语境,同时还需要理解和关注词汇、语句、篇章结构、思维逻辑、辅助语句和关键句等元素,并可以直接作用于现实中的文本资料中,其价值不言而喻。也因为这个原因,使得 MS MARCO 文本阅读理解挑战赛变的如此激烈。

智能创作通过深度学习模型获取创作的背景知识和创作方法,并根据主题自动生成作品,以辅助或替代人工创作。其中印象最为深刻的便是腾讯写稿机器人“Dreamwriter” ,在俄罗斯世界杯足球赛期间,Dreamwriter 生产一篇稿子平均只要 0.46 秒,而且写法越来越类人化,不再是冷冰冰的;除此之外,百度在 1 月的百家号内容创作者盛典上宣布推出人工智能写作辅助平台“创作大脑”,为人类作者提供纠错、提取信息等各种辅助工作,其基于语义的智能纠错功能识别准确率达到了 95% 以上,能实现相当于大学生平均水平的纠错能力;2018 年 5 月,微软小冰宣布“演唱深度学习模型完成第四次重大升级,演唱水平接近人类,且开始向作词、作曲、演唱全面发展;2018 年 6 月,IBM Research 推出 AI 系统 Project Debator,在旧金山 IBM 办公室,人工智能在一场辩论赛中击败了人类顶尖辩手,Project Debater 通过处理大量文本,就特定主题构建出有良好结构的演讲,提供清晰明确的目的,并反驳其对手,它的对手是以色列国际辩论协会主席 Dan Zafrir 和 2016 年以色列国家辩论冠军 Noa Ovadia。智能创作几乎需要集成目前所有的 NLP 技术,也侧面体现了各公司 NLP 技术综合实力,因此智能创造也备受各企业的关注。

除了以上热门的应用之外,智能问答和语音处理依然是 NLP 的热门应用。2018 年以来,各厂商也都相继更新换代,例如腾讯在最近推出了一款全新的“腾讯叮当智能视听屏”,就成功打破了智能音箱和智能显示设备之间的隔膜,成功的将两者完美的结合在了一起;而在刚刚结束的 2018 年 AICon 上,智能对话和语音处理依然是人们主题之一。NLP 的成熟应用,让智能应用的关键一步,不仅可以解放人力,同时也带来了更好的用户体验。

小结

2018 年,无论是 NLP 的研究还是应用,都十分热闹。NLP 研究的内容逐渐趋近于模型的可解释性和预训练,说明 NLP 的研究已经进入了深水区。而在应用方面,我们看到微软、谷歌、百度等巨头的竞争格局已经形成,同时各垂直领域也相继推出相应的产品,例如汽车之家的家家小秘、蔚来的 nomi 等,另外不少后起公司凭借自己的努力也有望向巨头发起挑战,例如竹间科技、思必驰等。

NLP 涉及了计算机、数学、统计学、语言学以及脑神经科学等领域的知识,为了不断的提升 NLP 技术,我们仍然需要 NLP 相关方面和领域的研究人员和企业继续努力,讲求研究和应用并举,普及与提高同步。我们希望看到各领域、各企业的专家、学者、工程师通力合作,共同创作另一个辉煌的 NLP 时代。

作者介绍

雷涛,高级算法工程师,汽车之家智能聊天机器人算法负责人。博士毕业于北京邮电大学大学网络技术学院,主要从事智能聊天机器人相关技术研发,致力于机器学习、深度学习、NLP 相关算法在智能聊天机器人领域的落地应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/480667.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

论文浅尝 | 基于RNN与相似矩阵CNN的知识库问答

链接:https://arxiv.org/pdf/1804.03317.pdf概述当前大部分的 kbqa 方法为将 kb facts 与 question 映射到同一个向量空间上,然后计算相似性. 但是这样的做法会忽视掉两者间原本存在的单词级别的联系与交互. 所以本文提出一种网络结构 ARSMCNN,既利用到语义的信息, 又利用到单词…

斯坦福大学最甜网剧:知识图谱CS520面向大众开放啦!

一只小狐狸带你解锁炼丹术&NLP秘籍受本次疫情的影响,斯坦福大学的2020春季知识图谱课程——CS520面向公众线上开放啦!连课名都是爱你的形状!简单翻译一下重点:今年的CS520面向公众开放,大家可以通过远程视频软件Zo…

一篇文章详解大数据技术和应用场景

“ 本文作者 陈睿 ,优知学院创始人 新技术、新趋势往往趋之若鹜却又很难说的透彻,希望这篇文章能让大家完整的理解什么是大数据:该篇包含:大数据、技术、场景应用以及大数据的岗位。 什么是大数据 说起大数据,估计大家都觉得只…

推荐标星 100 K 的 GitHub 开源项目

推荐标星 100 K 的 GitHub 开源项目 原文见:推荐 10 个标星 100 K 的 GitHub 开源项目 以下摘录部分: Build Your Own X (GitHub Star:102,000):汇集了诸多优质资源教你构建属于自己的东西,主要分为增强现实、区块链…

对话周明:回望过去,展望未来,NLP有哪些发展趋势?

HomeBlog 对话周明:回望过去,展望未来,NLP有哪些发展趋势? 2019年2月15日 by 打不死的小强 AI 新闻 0 comments 周明博士是微软亚洲研究院副院长、国际计算语言学协会(ACL)主席、中国计算机学会理事、中…

阿里P8架构师谈:MongoDB、Hbase、Redis等NoSQL优劣势、应用场景

NoSQL的四大种类 NoSQL数据库在整个数据库领域的江湖地位已经不言而喻。在大数据时代,虽然RDBMS很优秀,但是面对快速增长的数据规模和日渐复杂的数据模型,RDBMS渐渐力不从心,无法应对很多数据库处理任务,这时NoSQL凭借…

研讨会 | 知识图谱助力图书馆知识管理与智慧服务研讨会

知识图谱是大数据时代重要的知识表示方式之一,也是人工智能技术的重要支撑,在智能检索、数据分析、自动问答、知识推荐、知识管理等领域有着广泛的应用前景,为知识创新管理带来了新机遇。由于知识图谱实现了对象识别、文本理解、关系推理、机…

高效利用无标注数据:自监督学习简述

一只小狐狸带你解锁 炼丹术&NLP 秘籍 作者:huyber来源:https://zhuanlan.zhihu.com/p/108906502BERT的大热让自监督学习成为了大家讨论的热点,但其实word2vec和自编码器也都属于自监督学习范畴。本文通过整理自监督学习的一系列工作&…

TI-RTOS实时操作系统开发之功耗测试

文章目录写在前面CCS(code composer studio)开启Energy Trace配置电池参数设置测量时间在电流曲线图处点击右键开始测量写在前面 要测试一个产品的电流功耗方式有很多种: 1、电流转电压,通过在供电回路中串联10Ω电阻&#xff0c…

程序员真的只能干到35岁?——我的35岁危机度过之道!

“ 在我还是25岁的时候,我和很多程序员一样,其实都有同样的担心,老了以后怎么办?写代码难道还能写到35岁? 难道我这一辈子就做一个程序员就完了吗?难道这条路就不能走出更多的张小龙(foxmail开…

研讨会 | 知识工程与问答技术研讨会 (KEQA2018)

人工智能的迅速发展将深刻改变人类社会,而知识工程是人工智能领域中的一个重要研究主题。随着机器学习、自然语言处理和语义网技术的快速发展,知识获取与处理的能力得到了极大的提升,包括自然语言问答技术在内的智能应用也备受关注。本次研讨…

统计学-自然语言处理

摘要:主成分分析(英语:Principal components analysis,PCA)是一种分析、简化数据集的技术。主成分分析经常用于减少数据集的维数,同时保持数据集中的对方差贡献最大的特征。常常应用在文本处理、人脸识别、…

在K40小破卡训练50层BERT Large的宝藏trick

前言 虽然TPU的显存令人羡慕,但是由于众所周知的原因,绝大部分人还是很难日常化使用的。英伟达又一直在挤牙膏,至今单卡的最大显存也仅仅到32G(参考V100、DGX-2)。然而,训练一个24层的BERT Large模型的时候…

领域应用 | 推荐算法不够精准?让知识图谱来解决

本文转载自公众号:微软研究院AI头条。 编者按:我们几乎每天都会接收到各种各样的推荐信息,从新闻、购物到吃饭、娱乐。个性化推荐系统作为一种信息过滤的重要手段,可以依据我们的习惯和爱好推荐合适的服务。但传统的推荐系统容易出…

BERT重计算:用22.5%的训练时间节省5倍的显存开销(附代码)

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者:夕小瑶、rumor酱前言虽然TPU的显存令人羡慕,但是由于众所周知的原因,绝大部分人还是很难日常化使用的。英伟达又一直在挤牙膏,至今单卡的最大显存也仅仅到32G(参考V100、D…

去腾讯等BAT面试完的Mysql面试55题总结,含答案大赠送!

【BAT面试:mysql 面试55题】 1、一张表里面有ID自增主键,当insert了17条记录之后,删除了第15,16,17条记录,再把mysql重启,再insert一条记录,这条记录的ID是18还是15 ? 2、mysql的技术特点是什…

这十套练习,教你如何使用Pandas做数据分析

这十套练习,教你如何用Pandas做数据分析Pandas是入门Python做数据分析所必须要掌握的一个库。本文内容由科赛网翻译整理自Github,建议读者完成科赛网 从零上手Python关键代码 和 Pandas基础命令速查表 教程学习的之后,点击本篇Notebook右上角…

预训练模型超全知识点梳理与面试必备高频FAQ

一只小狐狸带你解锁 炼丹术&NLP 秘籍作者:JayLou娄杰来源:https://zhuanlan.zhihu.com/p/115014536预训练模型(Pre-trained Models,PTMs)的出现将NLP带入了一个全新时代。2020年3月18日,邱锡鹏老师发表了关于NLP预训练模型的综述《Pre-tr…

阿里P8架构师谈:MySQL数据库的索引原理、与慢SQL优化的5大原则

MySQL凭借着出色的性能、低廉的成本、丰富的资源,已经成为绝大多数互联网公司的首选关系型数据库。虽然性能出色,但所谓“好马配好鞍”,如何能够更好的使用它,已经成为开发工程师的必修课,我们经常会从职位描述上看到诸…

论文浅尝 | 利用类比推理优化知识图谱向量表示

链接:https://arxiv.org/pdf/1705.02426.pdf本文的主要创新点就是把类比推理应用到 KG embedding 中,通过对模型的 score function 添加某些约束来捕获 KG 中类比结构的信息,进而优化 KG 中实体和关系的 embedding 表示,并在 FB15…