企业微网站开发锛网站
news/
2025/10/5 23:01:38/
文章来源:
企业微网站开发,锛网站,搭建网站用什么框架,小程序怎么制作网站现在#xff0c;人工智能的发展处于跳跃式阶段#xff0c;我们也对AI在大型数据集的应用进展感到吃惊。更重要的是#xff0c;那些我们没有跟踪的数十亿张照片或餐厅的评论并没有被遗漏掉#xff1a;迁移学习技术让收集数据变得更加“容易”。另外#xff0c;得益于PyTorc…现在人工智能的发展处于跳跃式阶段我们也对AI在大型数据集的应用进展感到吃惊。更重要的是那些我们没有跟踪的数十亿张照片或餐厅的评论并没有被遗漏掉迁移学习技术让收集数据变得更加“容易”。另外得益于PyTorch框架、fast.ai应用程序库以及FloydHub公司小团队或者是个别开发人员也能轻松的应用这些方法。
本文要讲的例子就是ULMFiTJeremy Howard和Sebastian Ruder在fast.ai展示了如何用几百个标记准确的对电影评论进行分类。除此之外还有一个在通用英语文本语料库中训练的模型。 除了英语文本资料库和标记对评论进行分类外fast.ai还有一个小技巧它拥有大量特定领域的文本10万多个样本评论来展示普通英语和电影评论之间的区别。这引发了我们的思考至少得需要多少数据才足以弥合训练示例和通用语言模型之间的差距
这并不是一个特别愚蠢的问题。Frame可以帮助ZendeskIntercom和Slack等规模性公司标记、评价和理解与客户的对话。也就是说 “只要有足够的对话我们就可以手动评价”和“我们有足够的数据从头训练一个模型”这二者之间有很大的差距。仅仅几十个标签和几千条相关对话这能够做什么
事实证明这非常有用。在本文中我们将使用相同的电影评论数据集来证明即便是只有少部分的数据数据迁移依然可以有效。更加详细的代码请参考ULMFiT。
迁移什么
深度神经网络是当前最新人工智能背后的关键技术比如理解图像、音频或文本。深度神经网络的核心是它由层“深度”组成每个层都将输入转换为更接近网络训练答案的新的表示。
我们通常会抱怨不了解神经网络的中间层到底发生了什么……其实它们通常被设计为更加清晰、可解释的角色比如很多语言模型利用嵌入层将单个单词或短语进行分类将具有相似含义的单词或短语放在一起。举个例子来说这将有助于翻译AI在需要使用“杰出”illustrious这个词的时候会根据经验选择使用“伟大”great。 现在变得更有趣了一个“知道”“illustrious great”的层不仅有利于翻译还可以学习情绪估计将不同的观点聚集起来。这就是迁移学习也就是说模型在一个任务中学习到的东西可以对另外一个学习任务有帮助。事实上这个特殊的例子特别受欢迎以至于改进的通用语言模型已经成为一个全新的领域 迁移学习不仅有利于任务之间的转移它可以帮助一般模型在特定环境中更好的工作。例如一个通用的英语情绪模型或许可以预测电影评论但是可能不知道“紧张、紧张的惊悚”是件好事。
这就是Jeremy和Sebastian Rudder的通用语言模型微调文本分类ULMFiT的用武之地。他们对一个包含100,000个IMDB评论的通用语言模型做了改进。即便是只标记几百个单词其余的单词也能够帮助AI学习审稿人经常用“杰出”或“很好”代替“紧张、紧绷”等这很好的弥补了数据不足的缺陷。结果的准确度令我们感到惊讶仅仅有500个标记示例分类的准确度却高达94%。
未被标记的数据最少需要多少
ULMFiT为NLP提供了一个有力的依据使模型能够更有效的利用较小的数据集。在这项研究中我们专注于回答以下问题
如果我们对标记示例的预算特别少那么得需要收集多少未标记的数据才能有效的使用迁移学习
为了解决这个问题我们使用了大量固定的域数据池并改变了标记示例的数量来看看模型应该如何改进。将标记示例的数量保持不变并改变未标记的其他域示例的数量。也就是说我们的实验包括
1.语言建模变量
2.语言任务不变量
我们的语言任务、情感分类和原始的ULMFiT论文中的任务相同另外也使用了IMDB电影评论数据集。在实验中标记情绪训练样本的数量保持在500个500个样本可以用于很多小领域的研究并且有助于强调不同语言模型的差异提升能力。 对于语言建模我们改变了可用于语言任务的三种语言模型的域数据量
•仅限ULM这是使用Wikitext103预训练英语语言模型
•仅限域domain仅在IMDB数据上的基于域训练的模型。
•ULM 域domainULMFiT模型
训练这些模型的计算量特别大最大的域训练可能需要几天的时间才能完成。为了加快训练速度和有效的执行网格搜索我们使用了FloydHub。
结果
经过大约50个小时GPU处理结果如下 从实验结果我们可得知
•使用33的域数据就可以获得75数据的UMLFiT性能。
•令人惊讶的是ULM 2,000域示例的语言任务预测准确率约为85。 原文链接 本文为云栖社区原创内容未经允许不得转载。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/928821.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!