AI终于能替我写论文了

0617d1d878406aef3a4d945f46a0c7cf.jpeg

编 | 小舟、陈萍
源 | 机器之心

Meta AI 提出了一个可以总结学术文献,解决数学问题的新模型,该模型还能生成百科文章,编写科学代码,注释分子和蛋白质等等。

近年来,随着各学科领域研究的进步,科学文献和数据呈爆炸式增长,使学术研究者从大量信息中发现有用的见解变得越来越困难。通常,人们借助搜索引擎来获取科学知识,但搜索引擎不能自主组织科学知识。

现在,来自 Meta AI 的研究团队提出了一种新的大型语言模型 Galactica,可以存储、组合和推理科学知识。

a3ed29ea6357203cfe0ada217978b6c7.png

论文地址:
https://galactica.org/static/paper.pdf

试用地址:
https://galactica.org/

Galactica 模型有多强大呢,它可以自己总结归纳出一篇综述论文:

9b7afdb482b472a344540a146e918331.png

也可以生成词条的百科查询:

ce1c9b97fabebed394b0430ce5b7fe44.png

对所提问题作出知识性的回答:

18c6b3e2b1a62fa7ec8220dc9b707759.png

这些任务对于人类学者来说尚且是具有挑战性的任务,但 Galactica 却很好地完成了。图灵奖得主 Yann LeCun 也在推特上发文称赞:

abf7636538dbf21b86fc74f4a52f6232.png

我们来看一下 Galactica 模型的具体细节。

模型概述

Galactica 模型是在大量的论文、参考资料、知识库和许多其他来源的科学语料库上进行训练的,包括超过 4800 万篇论文、教科书和讲义、数百万种化合物和蛋白质知识、科学网站、百科全书等。与依赖于未经整理的、基于网络爬虫文本的现有语言模型不同,Galactica 训练所用的语料库是高质量且经过高度整理的。该研究在不过拟合的前提下对模型进行多个 epoch 的训练,其中在上游和下游任务上的性能通过使用重复的 token 得到改善。

Galactica 的性能在一系列科学任务上优于现有模型。在 LaTeX 方程式等技术知识的探索任务上,Galactica 与 GPT-3 的性能是 68.2% VS 49.0%。Galactica 在推理方面也表现出色,在数学 MMLU 基准上的表现显著优于 Chinchilla。

尽管没有接受过通用语料库的训练,Galactica 在 BIG-bench 上的性能也优于 BLOOM 和 OPT-175B。此外,它还在 PubMedQA 和 MedMCQA 开发等下游任务上创下了 77.6% 和 52.9% 的性能新高。

简单来说,该研究将逐步推理封装在特殊的 token 中,以模仿内部工作原理。这允许研究人员使用自然语言与模型进行交互,下图是 Galactica 的试用界面。

9211877bf78f7648cfc62cbc2a5582e0.png

值得一提的是,除了文本生成,Galactica 还可以执行涉及化学公式和蛋白质序列的多模态任务。这将为药物发现领域做出贡献。

实现细节

本文的语料库包含 1060 亿个 token,这些 token 来自论文、参考文献、百科全书以及其他科学资料。可以说该研究将自然语言资源(论文、参考书)与自然界中的序列(蛋白质序列、化学形式)都囊括了。表 1 和表 2 中显示了语料库的细节。

6a7e9be3a9adde756eca9f3f67e65b6a.png

语料库有了,接下来是对数据怎么操作。一般来讲,对 tokenization 的设计是非常重要的。例如,蛋白质序列是根据氨基酸残基来编写的,那么基于字符的 tokenization 是合适的。为了实现 tokenization,该研究对不同的模态进行了专门的 token 化。具体表现在(包括但不仅限于):

  • 引用:用特殊的参考 token[START_REF]和 [END_REF] 来包装引用;

  • 逐步推理:用 working memory token 来封装逐步推理,模拟内部 working memory 上下文;

  • 数字:把数字分成单独的 token。例如, 737612.62 → 7,3,7,6,1,2,.,6,2;

  • SMILES 公式:用 [START_SMILES] 和[END_SMILES]包装序列,并应用基于字符的 tokenization。同样,该研究使用 [START_I_SMILES] 和[END_I_SMILES]来表示异构体 SMILES。例如:C(C(=O)O)N→C,(,C,(,=,O,),O,),N;

  • DNA 序列:应用一种基于字符的 tokenization,将每个核苷酸碱基视为一个 token,其中起始 token 为 [START_DNA] 和[END_DNA]。例如,CGGTACCCTC→C, G, G, T, A, C, C, C, T, C。

如下图 4 显示了对一篇论文的引用进行处理的示例。在处理引用时使用全局标识符和特殊 token[START_REF]和 [END_REF] 来表示引用的地方。

783c1f73ac243f7bfd223c9878319ae1.png

数据集处理好之后,接下来就是怎么实现。Galactica 在 Transformer 架构的基础上进行了以下修改:

  • GeLU 激活:将 GeLU 激活用于各种大小的模型;

  • 上下文窗口:对于不同大小的模型,使用 2048 长度的上下文窗口;

  • 无偏置:遵循 PaLM,在密集内核或层规范中不使用偏置;

  • 学习位置嵌入:学习位置嵌入用于模型;

  • 词汇表:使用 BPE 构建一个包含 50k token 的词汇表。

表 5 列出了不同大小模型以及训练超参数。

f20f1e410cfbcdb2a03c589e2f440650.png

实验

重复的 token 被认为是无害的

从图 6 可以看出,在经过四个 epoch 的训练之后,验证损失继续下降。拥有 120B 参数的模型在第五个 epoch 开始时才开始过拟合。这是出乎意料的,因为现有的研究表明重复的 token 可能对性能有害。该研究还发现,30B 和 120B 的模型在 epoch-wise 后表现出双下降效应,即验证损失达到平稳(或上升),然后是下降。这种效果在每个 epoch 后都变得更强,最明显的是 120B 模型在训练结束时。

2a8c5de4990881d1e7f928508d0ff954.png

图 8 结果显示实验没有出现过拟合迹象,这表明重复 token 能够提高下游和上游任务性能。

698940b14894db9d2561de40ed8710b7.png

其他结果

键入公式太慢了,现在用提示就能生成 LaTeX:

40272234adbc42a2bd8bbc5979bd4f66.png

在化学反应中,要求 Galactica 在化学方程 LaTeX 中预测反应的产物,模型仅根据反应物就能进行推理,结果如下:

e0033c629f14cde3c185ec89bf5ff983.png

表 7 中报告了一些其他结果:

30ffd49d4603bfbd058a6bbdbe29f98d.png

Galactica 的推理能力。该研究首先在 MMLU mathematics 基准上进行评估,并在表 8 中报告了评估结果。Galactica 与较大的基础模型相比表现强劲,并且使用 token 似乎可以提高 Chinchilla 的性能,即使对于较小的 30B Galactica 模型也是如此。

b75dedb91e5c23cb9b9e0639691ed302.png

该研究还对 MATH 数据集进行了评估,以进一步探索 Galactica 的推理能力:

0bbe8b42f7e5edf245d5ed21e814fe5f.png

从实验结果可以得出:Galactica 在思维链和提示方面都大大优于基础 PaLM 模型。这表明 Galactica 在处理数学任务上是个更好的选择。

在下游任务的评估结果如表 10 所示。Galactica 显着优于其他语言模型,并且在大多数任务中优于更大的模型(Gopher 280B)。与 Chinchilla 相比,性能表现差异更大,Chinchilla 在子集任务上似乎更强:特别是高中科目以及数学较少、记忆密集型任务。相比之下,Galactica 往往在数学和研究生水平的任务中表现更好。

0e35ebba7fd04dccdf0e3b294566a191.png

该研究还评估了 Chinchilla 在给定输入上下文的情况下预测引用的能力,这是对 Chinchilla 组织科学文献能力的一个重要测试。结果如下:

c198139a3d684f3c3829f674ad8a40df.png

更多实验内容,请参考原论文。

87cc75d6b1277eb7dca86302680a5f5f.jpeg后台回复关键词【入群

加入卖萌屋NLP、CV、搜推广与求职讨论群

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/476711.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网站访问量怎么刷_基于爬虫刷新某网站访问量!我说怎么上千万呢

前言:前一段时间看到有博友写了爬虫去刷新博客访问量一篇文章,当时还觉得蛮有意思的,就保存了一下,但是当我昨天准备复现的时候居然发现文章404了。所以本篇文章仅供学习交流,严禁用于商业用途当我在写文章的同时&…

入市

最近很忙,不是工作,是因为入市。 前天买入第一支股票开始,整个脑袋就开始忙碌起来。什么也顾不得了,时不时偷偷瞄几眼,跌了,就盯着股票曲线图,似乎自己多盯一会儿,那个曲线就会涨…

LeetCode 1405. 最长快乐字符串(贪心)

1. 题目 如果字符串中不含有任何 aaa,bbb 或 ccc 这样的字符串作为子串,那么该字符串就是一个「快乐字符串」。 给你三个整数 a,b ,c,请你返回 任意一个 满足下列全部条件的字符串 s: s 是一个尽可能长的…

我裂开了...人类脑海中的画面,被AI解码了??

作者 | 白鹡鸰导言有没有那么几个瞬间,你要么想把自己脑子里的东西掏出来给别人看,要么想撬开别人的脑子看看里面都装了什么?虽然错过了霍格沃茨的入学时间,但如果从现在开始学习扩散模型和神经学,可能很快你就能实现这…

我的老师

他的人品,学识是对我的一生都有很大的影响,下面的内容都是事实,因为我是他的学生(1992-1995),一生中我都是他的学生 From: http://211.67.168.43/infoshow.aspx?id118 我是这样做教师的——师德标兵李九成老师先进事迹报告大家好&#xff01…

python构建二叉树_python--使用递归的方式建立二叉树

树和图的数据结构,就很有意思啦。# coding utf-8 class BinaryTree: def __init__(self, root_obj): self.key root_obj self.left_child None self.right_child None def insert_left(self, new_node): node BinaryTree(new_node) if self.left_child is None…

GPT-4要来了?传言:先进到与人类无异

编 | Cris源 | 新智元千呼万唤始出来!GPT-4,真要来了?作为史上最受期待的AI模型,GPT-4真要来了?这几天,AI分析师罗梅罗的一篇专栏文章,一经推出便迅速「引爆」了整个AI科技圈。他表示&#xff0…

LeetCode 1406. 石子游戏 III(DP)

1. 题目 Alice 和 Bob 用几堆石子在做游戏。几堆石子排成一行,每堆石子都对应一个得分,由数组 stoneValue 给出。 Alice 和 Bob 轮流取石子,Alice 总是先开始。在每个玩家的回合中,该玩家可以拿走剩下石子中的的前 1、2 或 3 堆…

[引]VS2005 之 Visual Basic 程序的结构

1.文件级编程元素 2.命名空间级编程元素 3.模块级编程元素 4.过程级编程元素 5.Main 过程 Visual Basic 程序是依据标准的构造块建立起来的。 一个解决方案由一个或多个项目组成。 一个项目又包含一个或多个程序集。 每个程序集是依据一个或多个源文件编译而来的。 源文件提供类…

python怎么安装开发版_【干货】开发板上安装python的hiai库和opencv库

Matrix是已经支持phthon接口了,但是发现目前python的hiai库并没有自动安装,需要自己安装; 话不多说下面是安装步骤: 步骤1. 开发板联网,如果已联网则跳过该步骤; 接下来需要在开发板上配置arm的源&#xff…

让AI去分割人体的心肝脾胃肺,靠谱吗?

随着医学影像设备的快速发展和重视程度的增加,医学领域可供深度学习方法所利用的图像不断增多。随着CV领域中,深度学习的复兴,其在医学成像领域的应用大幅增加,图像分割算法基于深度学习的研究已经取得了显著的进展。我们特地请来…

程序员面试金典 - 面试题 17.05. 字母与数字(哈希map+思维转换)

1. 题目 给定一个放有字符和数字的数组,找到最长的子数组,且包含的字符和数字的个数相同。 返回该子数组,若存在多个最长子数组,返回左端点最小的。若不存在这样的数组,返回一个空数组。 示例 1: 输入: ["A&qu…

有效创建Oracle dblink的两种方式

有效创建Oracle dblink的两种方式 两台不同的数据库服务器,从一台数据库服务器的一个用户读取另一台数据库服务器下的某个用户的数据,这个时候可以使用dblink。 其实dblink和数据库中的view差不多,建dblink的时候需要知道待读取数据库的ip地址…

sqlserver2008驱动_Python连接数据库两种方法,QSqlDatabase,pymmsql,驱动名

Qt中内置了好几个数据库的驱动程序,也就是说我们可以直接在PyQt中对这些数据库进行操作。这些内置的数据库包括: IBM DB2,驱动名为QDB2; Borland InterBase,驱动名为QIBASE; MySQL,驱动名为QMYS…

我们追求的泛化,竟是一条死路?

文 | 鹰钩鼻涕虫从我们刚刚接触统计学习方法开始,想必就一直在接受一个思想:相比符号算法,统计模型最重要的能力之一,即是它的泛化能力。或者,用这两年使用更加广泛的话术,则是统计模型具备想象力&#xff…

何处是我家

何处是我家 ——代腾飞 2007年9月9日 于成都 这里很繁华,那里也不差 只是我手中没有黄金白银拿 只能眼睁睁地看着她成为别人的家 我一生省吃俭用、摸爬滚打 只为追逐心中的那个家 我四处漂泊、浪迹天涯 只为寻找那个心中的家 无论何时,无论何地 我心都…

LeetCode 460. LFU缓存(哈希双链表)

1. 题目 设计并实现最不经常使用(LFU)缓存的数据结构。它应该支持以下操作:get 和 put。 get(key) - 如果键存在于缓存中,则获取键的值(总是正数),否则返回 -1。put(key, value) - 如果键不存…

python网站攻击脚本_Python scapy 实现一个简易 arp 攻击脚本

scapy是python写的一个功能强大的交互式数据包处理程序,可用来发送、嗅探、解析和伪造网络数据包,常常被用到网络攻击和测试中。 scapy的安装在Linux非常便利,但在Windows下比较复杂。 以下假定读者使用的是Ubuntu Linux 和 Python 3 环境。 …

导师课题组人少,一个人攻克一个方向是什么体验?

CSer发一篇顶会一作有多难?没写论文前,一直认为搞科研不着急,压根就没有把论文这件事放在心上。研一的时候进课题组,导师说要开拓新的方向,于是成了实验室第一个吃螃蟹的人,日常也没有人可以寻求指导。那时…

SQL Server定期自动备份

SQL Server定期自动备份企业管理器中的Tools,Database Maintenance Planner,可以设置数据库的定期自动备份计划。并通过启动Sql server Agent来自动运行备份计划。具体步骤如下:1、打开企业管理器,在控制台根目录中依次点开Microsoft SQL Ser…