神TM的SOTA ，看完谷歌的新论文，我对AI大厂有些失望

源 | 机器之心

用数万美元 TPU 算力，实现在 CIFAR-10 上 0.03% 的改进，创造了新的 SOTA，但这一切值得吗？

「我相信他们得到的数字是准确的，他们确实做了工作并得到了结果…… 但这样真的好吗？」

一名机器学习研究者的灵魂发问，今天成为了整个社区最热门的话题。

事情要从这周四说起，谷歌研究员 Andrea Gesmundo 和谷歌 AI 负责人、大牛 Jeff Dean 的论文《An Evolutionary Approach to Dynamic Introduction of Tasks in Large-scale Multitask Learning Systems》被提交到了预印版论文平台 arXiv 上。

Jeff Dean 等人提出了一种进化算法，可以生成大规模的多任务模型，同时也支持新任务的动态和连续添加，生成的多任务模型是稀疏激活的，并集成了基于任务的路由，该路由保证了有限的计算成本，并且随着模型的扩展，每个任务添加的参数更少。

作者表示，其提出的新方法依赖于知识划分技术，实现了对灾难性遗忘和其他常见缺陷（如梯度干扰和负迁移）的免疫。实验表明，新方法可以联合解决并在 69 个图像分类任务上取得有竞争力的结果，例如对仅在公共数据上训练的模型，在 CIFAR-10 上实现了新的业界最高识别准确度 99.43%。

论文链接：https://arxiv.org/abs/2205.12755

这看起来是 Jeff Dean 等人朝着他们近期设立的雄伟目标 pathway 通用 AI 架构迈出的重要一步。去年，他所带领的团队提出了「下一代通用 AI 架构」Pathways，旨在用一个架构同时处理多项任务，并且使其拥有快速学习新任务、更好地理解世界的能力。

在 5 月 12 日的谷歌 IO 大会上，皮查伊还表示研究人员用 Pathways 系统训练了一个 5400 亿参数的大型语言模型 PaLM，这是一个只有解码器的密集 Transformer 模型。可以完成的任务包括自动生成代码、解决数学问题、修复 bug，解释笑话的梗等等。PaLM 可以区分因果关系，理解上下文中的概念组合。

PaLM 模型在数学问题上的准确率提升到了 58%，接近 60% 的 9 到 12 岁儿童解决问题的水平，又可以在没经过对应语料库训练的情况下实现准确的翻译。

而这个星期的新论文中，作者提出的 µ2Net 模型可以预训练或随机初始化。一次搜索出的单个任务上的最佳模型称为活动任务。在任务的活跃阶段，在活跃任务上训练的模型群体会不断进化——随机突变然后测试评分，保留高分的，淘汰低分的。一个活跃阶段由多代组成，其中并行采样和训练多批子模型。在任务活动阶段结束时，仅保留其最佳评分模型作为多任务系统的一部分。一个任务可以被多次激活。

作者表示 µ2Net 可以在大型任务集上实现最先进的质量，并能够将新任务动态地引入正在运行的系统中。学习的任务越多，系统中嵌入的知识就越多。同时，随着系统的增长，参数激活的稀疏性使每个任务的计算量和内存使用量保持不变。通过实验，每个任务的平均增加参数量减少了 38%，由此产生的多任务系统仅激活了每个任务总参数的 2.3%。

对于程序员大神 Jeff Dean，人们一直心存敬畏。该研究刚刚提交时，人们的看法还是赞赏和期待，但在更多的人仔细阅读过论文之后，社区的风评突然发生了转变。

昨天在 reddit 的机器学习社区上，一名 AI 研究者 MrAcurite 表达了愤怒的情绪：

我相信这些数字是准确的，并且他们确实做了工作并得到了结果。在这篇论文中，作者使用了非常复杂的进化和多任务学习算法，它有 18 页的内容，非常有趣，解决了一堆问题。但有两个值得注意的地方。

首先，他们主张的突破性指标数字是 CIFAR-10 上的 99.43，而此前的 SOTA 为 99.40，所以在宏伟的计划中向前推进了一步，「哇哦」。

其次，论文末尾有一张图表，详细说明了仅用于产生最终结果的训练方案的 TPU 核心小时数。总计为 17,810 小时。假设你不是个在谷歌工作的人，你必须使用 3.22 美元 / 小时的按需付款。这意味着这些训练好的模型成本为 57,348 美元。

严格来说，在一个足够通用的遗传算法上投入足够的计算肯定最终会产生好的性能，所以虽然你绝对可以阅读这篇论文并收集有关「如何使用遗传算法，通过利用已有模型子集部分，在每个新任务上学习权重的方式来完成多任务学习」的有趣想法。

或者用人话来说，本文只是「Jeff Dean 花了足够的钱养活一个四口之家五年的钱，以获得 0.03% 在 CIFAR-10 上的改进。」

在不断推陈出新的大厂 AI 论文中，OpenAI 无疑是最严重的违规者，但似乎每个人都在这样做。你在现有数据和现有基准的现有问题上投入了大量的计算和少量的新想法，然后如果你的数字远远高于已有的 SOTA 数字，你就可以在自己简历上贴上一个小标签。

这让人如何相信你的思路不是有害的？我甚至无法验证它们，无法将它们应用到自己的项目中。

这真的是一个研究社区该有的样子吗？大量的算力掌握在少数科技巨头的手中。我认为应该有一个新的论文期刊，要求其中的论文在单个消费者 GPU 上 8 小时内可以复现其实验结果。

MrAcurite 发贴后，有多位研究者展开了讨论，人们从各个角度附和了她的观点。

SupportVectorMachine （认证的研究人员）表示：

我几乎对深度学习失去了兴趣，因为作为小型实验室的从业者，基本上在计算预算方面不可能比得过科技巨头。即使你有一个很好的理论想法，主流环境可能也存在偏见，让它难以看到曙光。这酿成了一个不公平的竞争环境。

当然，这些大规模的研究项目并非没有价值。像 GPT、DALL-E 等都很棒。但如果我不能在我自己的机器上复现这些大模型，它们对我来说的意义就不大。

gambs （认证的 PhD）回复道：

讲一件真实的事，两年前我写了一篇关于流模型的论文，一位审稿人给出的评语是：「生成的图像看起来不如 GAN 好」。

当时我使用的是以前发布的预训练模型，并且没有以任何方式对其进行修改，这篇论文旨在找到隐空间中采样的部分，而不是提出改进模型生成图像质量的模型。

fmai 回复道：

作为 AI 会议的审稿人，我认为可以通过规范化帮助改变这种现状。例如，我尝试专门查看论文是否符合科学工作的要求，是否有完整的研究问题，是否有证据充分支持假设等。用所有自变量都不同的新系统击败 SOTA 模型不会创造任何新知识，也不是科学研究。

JanneJM 则表示：

用更大的网络击败现有 SOTA 模型并不是推动该领域发展的唯一途径。相反，这可能是最无趣的研究。

专注于使用小型网络（用于物联网设备、实时训练等）做更多事情，不需要大量计算能力，这样的研究不是更有趣吗，实际用途也更大。理论结果和概念突破，无论是数学证明还是统计证明、新型方法等等，这些其实几乎不需要实际计算。

预训练大模型的兴起，正让越来越多的研究者大呼「先进模型跑不起」、「难以和科技大厂的 AI Lab 竞争」，技术的进步似乎把很多人挡在了前沿研究的门槛之外。现在看来，情况有着愈演愈烈的趋势，最近一段时间，在社交网络上刷屏的新研究是 OpenAI 的 DALL-E2 和谷歌的 Imagen，这些模型都需要耗费巨大的算力完成训练。

不知在人们的呼吁过后，未来的研究风向是否会有改变。

后台回复关键词【入群】
加入卖萌屋NLP、CV与搜推广与求职讨论群
后台回复关键词【顶会】
获取ACL、CIKM等各大顶会论文集！

[1]https://www.reddit.com/r/MachineLearning/comments/uyratt/d_i_dont_really_trust_papers_out_of_top_labs/
[2]https://www.reddit.com/r/MachineLearning/comments/uyfmlj/r_an_evolutionary_approach_to_dynamic/