我们追求的泛化,竟是一条死路?

0a64a0fb050f0ac5d551fefd6274212b.png

文 | 鹰钩鼻涕虫

从我们刚刚接触统计学习方法开始,想必就一直在接受一个思想:相比符号算法,统计模型最重要的能力之一,即是它的泛化能力。或者,用这两年使用更加广泛的话术,则是统计模型具备想象力,或者思考的能力。炼丹时,我们绝大多数时候去对抗的,也是泛化的反面,即过拟合。

大模型、大数据加持之后,深度学习算法的确也帮助我们解决了很多无法枚举的问题,关于其泛化能力的研究也越来越多,比如翻译模型,强大的泛化能力似乎可以让模型在没有足够的对齐语料时,也能达到不错的效果。

不过,我想提出一个相对反直觉的观点:以我们自己为例,我们都知道,有的时候想象力飘得太远,过于“举一反三”反倒未必是好事儿,或许成长的过程中,相当一部分的时间,我们是在限制自己的想象力

3fdf65e3a0664f8433ad86715c1f7b41.png败也泛化5dfce62ea750a189f986604b49391589.png

以文生图算法为例,例如,我们输入 prompt 为:苹果,西瓜,这个时候文生图算法会给出什么结果呢?

71c9faaa6356fd2be857a7c7175de157.png

不怎么稳定,对吧?实际上,我分别尝试了中文和英文的模型,结果是类似的(这里给出的是 stableboost 生成的结果,输入是 an apple and a watermelon)。

那我们换一个 prompt 再试一下:熊猫,西瓜,看看是什么结果?

614d0dacf2a1a5cd6af1bcb626da0269.png

甭管图是不是有点儿诡异,但起码意思上非常稳定了,对吧。我们来试着分析一下,这是怎么回事儿呢?

首先,几乎不可能是样本缺失的问题,我们难以想象,类似于苹果、西瓜这样的常用词,在文生图的庞大语料中会不存在。但是,实际测试中我们会发现,意思相近的提示如果放在一起生成,则很容易试出来奇怪的结果,比如老虎和狮子,榴莲和西瓜等。但如果同时提到的提示在自然语义上不相近,则往往能生成出靠谱的结果,比如前段时间火爆的太空歌剧、猫猫骑士等。

98198b55b52f565f1cfc26ddf4396071.png
▲a tiger and a lion
ad25b3cecc7252a08ef0efc1976b8f2e.png
▲a durian and a watermelon

如果我来猜测,如苹果和西瓜、老虎和狮子这种包含意思相近的主体的输入,大体是语义理解模型将它们看成了一个东西,也就是说,在语言模型的视角下,在物理空间内,两个词是很相近的。我们试着从预训练语言特征上去分析,在文本数据下,两个相近主体的上下文是高度一致的。乂,这正是统计模型的泛化能力所带来的。

也就是说,让预训练语言模型在绝大多数理解任务上叱咤风云的能力,在这里却好像吃了瘪。说白了,还是任务目标对不齐。在文生图里面,通过语义理解,控制生成的主题范围,合理泛化一些修饰词,以及对长 prompt 的语义更好的建模,语言模型可以起到很大的作用,但涉及到精细化控制,则又与其训练目标相冲突。

6dbe9f2b55290a2ab60a90dcb3ff7e17.png随机是最牛的泛化8399fe187b6f53bdaabdea26ee8cf165.png

实际上,我们在训练模型的过程中,一直都是在限制模型的泛化空间。如果我们不去修改模型的参数,那么其得到的结果是完全随机的,即有了无限可能,可以往任何的方向走。我们需要的是,给出条件之后,模型的每一步,都朝着正确的方向行进,在合理的范围内,它可以自由发挥一下,走出一些没有见过的路。当然,不同的任务,所要限制的空间不一样,例如生成任务,则多数需要精细化的控制,而理解任务,则多数追求兼容没见过的东西。

bd2ce20568ccf0856db9c90f272191b3.jpeg

通用层,泛化追求的更宏大的目标则是,将泛化空间刚好限制到一个通用知识体系上,实现小样本/零样本的迁移。比如多语言场景,其追求的就是模型能够学到通用的语言学知识,从而解决小语种语料不全的问题。

我认为,理想很丰满,现实很骨感。我充分认可这一宏愿,且希望能够有进展,但在我有限的知识体系里,只认为这一宏愿极难实现。以跨语种为例,全球最顶尖的语言学家,如无充分交互,也未必能达到此能力。或许相同语系,或同源语言之间,这一任务相对容易,但不同语系之下,则又会掉入泥坑。

1bc62814a819aca589f19a3bf474b9d5.jpeg

特德·姜所写《你一生的故事》中,主角学会外星语言的过程,亦是从最基本的认知开始,一步一步地掌握其语言规律。又比如,有些古楔形文字,多少代的语言学家在研究,至今也未能破解。已部分破解的古文字,多也是有足够的对齐语料,或其本身象形文字的属性,史料记载,发掘地原本的作用(如祭祀、讲学等)相互印证而得。

虽认可这一宏愿,也充分认同,在这一维度上讨论的泛化能力,对知识迁移相当有意义。但恕我直言,在应用领域(非理论研究领域),绝大多数的数据集质量,或任务设计,还不配谈算法层面的泛化能力。例如在主题分类上常见的,类别与某些词语,在自然语义上相关性不强,却在数据中有很强的统计共现,如“鹈鹕”和体育类别,小米、苹果等词。

是的,最终,又会回到这个老生常谈的话题上,数据理解和任务设计。起码,在讨论泛化之前,其任务应当是可行的,其数据也应当是充分、丰富的。如基于句式建模的算法,就没办法去谈通过小样本,抽取特定类别的词或关系;基于主题词建模的算法,则需充分考虑一些特殊词的二义性。

归根到底,哪怕是深度学习模型,目前也仅仅是一个统计工具,所以我们需要在样本上,先把不必要的 bias 给消解掉。至于怎样抽象出所谓“知识”,我认为想清楚目标(想抽出什么样的知识)之后,首先要指导的,仍旧是如何做出来一份符合要求的数据。否则,数据中明明存在的很强的统计显著性了,却要求模型不要建模,那到底这个模型是好,还是坏呢?

46c71039a64ea3a155285373743ebcd4.png后记1756ca716f249ebffd83ecbdb15bbcf2.png

胡乱吐槽这么一篇,实际上还是有一些“正视听”的宏愿的。正如我文中所说,现实中我也经常和身边的人讲,深度学习模型就是一个统计工具,莫要把它看得太过强大。近几个月来,我比较反感对深度学习模型使用所谓“思考”、“想象”、“创作”等词汇,许是我对人的能力太过高估,总是认为统计工具上不应当谈这些似表灵性的词。平常带的一些新人,也会使用类似于“模型能学会”的话术,去逃避严谨的论证工作、繁琐的数据工作。而最终,也是浪费了大量的算力,最终也没有得到可用的东西,反倒又牺牲了很大的运行效率,把性价比压得无比低。

真不知道求个什么劲儿。

949c23fb5b6acf2ec9d579586aed2897.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/476696.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

何处是我家

何处是我家 ——代腾飞 2007年9月9日 于成都 这里很繁华,那里也不差 只是我手中没有黄金白银拿 只能眼睁睁地看着她成为别人的家 我一生省吃俭用、摸爬滚打 只为追逐心中的那个家 我四处漂泊、浪迹天涯 只为寻找那个心中的家 无论何时,无论何地 我心都…

LeetCode 460. LFU缓存(哈希双链表)

1. 题目 设计并实现最不经常使用(LFU)缓存的数据结构。它应该支持以下操作:get 和 put。 get(key) - 如果键存在于缓存中,则获取键的值(总是正数),否则返回 -1。put(key, value) - 如果键不存…

python网站攻击脚本_Python scapy 实现一个简易 arp 攻击脚本

scapy是python写的一个功能强大的交互式数据包处理程序,可用来发送、嗅探、解析和伪造网络数据包,常常被用到网络攻击和测试中。 scapy的安装在Linux非常便利,但在Windows下比较复杂。 以下假定读者使用的是Ubuntu Linux 和 Python 3 环境。 …

导师课题组人少,一个人攻克一个方向是什么体验?

CSer发一篇顶会一作有多难?没写论文前,一直认为搞科研不着急,压根就没有把论文这件事放在心上。研一的时候进课题组,导师说要开拓新的方向,于是成了实验室第一个吃螃蟹的人,日常也没有人可以寻求指导。那时…

SQL Server定期自动备份

SQL Server定期自动备份企业管理器中的Tools,Database Maintenance Planner,可以设置数据库的定期自动备份计划。并通过启动Sql server Agent来自动运行备份计划。具体步骤如下:1、打开企业管理器,在控制台根目录中依次点开Microsoft SQL Ser…

监督学习方法总结

文章目录1. 适用问题2. 模型2.1 概率模型、非概率模型2.2 判别方法、生成方法2.3 特征空间2.4 线性、非线性模型3. 学习策略4. 学习算法1. 适用问题 监督学习:学习一个模型,使它能对给定的输入预测相应的输出。包括分类、标注、回归。 分类问题&#x…

rabbitmq使用_Spring Boot中使用RabbitMQ

Message Broker与AMQP简介Message Broker是一种消息验证、传输、路由的架构模式,其设计目标主要应用于下面这些场景:消息路由到一个或多个目的地消息转化为其他的表现方式执行消息的聚集、消息的分解,并将结果发送到他们的目的地,…

注意力无用?Apple新作:注意力替换成常数矩阵,效果差异不大

文|萧箫 发自 凹非寺源|量子位要说Transformer的核心亮点,当然是注意力机制了。但现在,一篇新研究却突然提出了带点火药味的观点:注意力机制对于预训练Transformer有多重要,这事儿得打个问号。研究人员来自…

windows服务编程 注册InstallUtil.exe

dos命令下输入; C:\Windows\Microsoft.Net\Framework\v2.0.to727>InstallUtil.exe E:\Test\WindowsServiec1.exe 删除: C:\Windows\Microsoft.Net\Framework\v2.0.to727>InstallUtil.exe/u E:\Test\WindowsServiec1.exe 转载于:https://www.cnblogs.com/lgzh3/archive/2…

LeetCode 5. 最长回文子串(动态规划)

文章目录1. 题目2. 解题2.1 自己写的DP2.2 优化后的DP2.3 中心扩展法1. 题目 给定一个字符串 s,找到 s 中最长的回文子串。你可以假设 s 的最大长度为 1000。 示例 1: 输入: "babad" 输出: "bab" 注意: "aba" 也是一个有…

springboot整合kafka_springboot整合kafka实现消息的发送消费

如下是springboot整合kafka的一个案例,方便需要的小伙伴。启动kafka Servercd 到kafka的bin目录下:前提是启动zk./kafka-server-start.sh /Users/hz/programs/kafka_2.12-2.2.1/config/server.properties &kafka创建topic:kafka-topics.sh --create …

关于如何在BCB中使用CodeGuard

关于如何在BCB中使用CodeGuard点击数:231 录入时间:2007-6-7 一、 为什么写这篇东西 自己在使用 BCB5 写一些程序时需要检查很多东西,例如内存泄漏、资源是否有释放等等,在使用了很多工具后,发觉 BCB5 本…

港大腾讯提出DiffusionDet:第一个用于目标检测的扩散模型

编|杜伟、陈萍源|机器之心扩散模型不但在生成任务上非常成功,这次在目标检测任务上,更是超越了成熟的目标检测器。扩散模型( Diffusion Model )作为深度生成模型中的新 SOTA,已然在图像生成任务…

无监督学习概论

文章目录1. 无监督学习基本原理2. 基本问题2.1 聚类 Clustering2.2 降维 Dimensionality Reduction2.3 概率模型估计3. 机器学习三要素4. 无监督学习方法4.1 聚类4.2 降维4.3 话题分析4.4 图分析1. 无监督学习基本原理 机器学习或统计学习一般包括监督学习、无监督学习、强化学…

python xlrd使用_python处理Excel xlrd的简单使用

xlrd主要用于读取Excel文件,本文为大家分享了python处理Excel的具体代码,供大家参考,具体内容如下 安装 pip install xlrd api使用 import xlrd # 打开Excel文件读取数据 workbook xlrd.open_workbook(a.xlsx); # 打印所有的sheet列出所有的…

学习Duwamish7的MSDN说明及相关技术策略

(一).MSDN对Duwamish7的说明   Duwamish 7.0 是由 MSDN 开发的通用 Duwamish 系列应用程序的功能性端口(完全使用 .NET 技术)。尽管示例本身是围绕虚拟网上书店建立的,但本示例主要关注的方面却是性能,与…

程序员面试金典 - 面试题 17.08. 马戏团人塔(最长上升子序 DP/二分查找)

文章目录1. 题目2. 解题2.1 超时解2.2 二分查找1. 题目 有个马戏团正在设计叠罗汉的表演节目,一个人要站在另一人的肩膀上。出于实际和美观的考虑,在上面的人要比下面的人矮一点且轻一点。 已知马戏团每个人的身高和体重,请编写代码计算叠罗…

海洋分享lol皮肤插件_LOL战斗之夜客户端BUG频出服务器爆满!如何提前领取皮肤?...

Hello大家好,我是Taker!昨天的战斗之夜,小编可是单排奋战了一整晚~排位段位和箱子积分都定格在了钻石,不知道各位如何呢?(^o^)/~今天终于到了收获的日子了!之前我们打的积分所获得的皮肤箱子今天就可以打开…

socket异步处理问题

由于一个项目要和第三方软件做接口,第三方软件是Unix的操作系统,所以用了Socket来传输数据。具体结构是这样的:本项目作为服务器端,第三方软件是客户端,并且有多个客户端。通常情况下,要开多个线程来处理多…

2022爆火的AIGC,能给AI续命吗

文 | 陈彩娴源 | AI科技评论生产力如已成熟,想象力还会远吗?“你们是从什么时候开始注意到人类的?”“当第一个原始人开始仰望星空的时候。”AI 的类人猿,早已开始仰望人类。来自机器的审视在过去短短的两年间,算法从业…