Nature Machine Intelligence 法国国家科学研究中心评论“使用大语言模型进行研究的危机”

ChatGPT 于 2022 年底发布,将大型语言模型 (LLM) 推到了聚光灯下。通过使用户能够直接用自然语言查询模型,ChatGPT 实现了对这些模型的访问——这是一个受欢迎的发展。从那时起,ChatGPT 和 Bard、Claude 和 Bing AI 等类似工具在各种任务中都展示了它们的多功能性和效率。
社会科学家很快就接受了这些模型。他们使用这些基于LLM的AI助手来总结研究文章,调试代码,甚至在计算机模拟中模拟调查参与者,实验对象或代理。研究人员还采用它们来注释文本。通过向机器传递一个简单的提示,他们现在可以对数千个文档进行分类。他们可以根据自己的编码方案快速、精确地做到这一点。
作为多年来一直在使用各种类型的LLM来注释文本数据的社会科学家,我们对这些发展感到兴奋。到目前为止,我们自己的实践包括在特定任务上微调 LLM——也就是说,为模型提供成百上千个示例以“训练”它们。结果是不可否认的,但这些示例的手动注释通常是一个漫长而乏味的过程。
因此,我们欢迎这些模型的到来,但我们也对它们进行了测试。我们将 ChatGPT 的输出与我们的模型的输出进行了比较,并对新生文献进行了彻底的审查。结果有时是好的,有时真的很糟糕。他们很少超过特定任务的 LLM。
然而,这个结论似乎并不是使用这些新方法的最大问题。我们认为,在我们出于科学目的使用这些工具之前,需要解决三个问题。
我们首先关注的是这些模型所获得结果的可复制性。一些人认为 GPT 3.5(为 ChatGPT 免费版本提供动力的模型)对提示很敏感,但另一些人则认为它对收到的请求措辞的微小变化非常强大。
在我们看来,更大问题的是用户无法对分析中使用的模型施加控制。当然,也有经典的批评,认为这些模型是“黑匣子”。我们不知道他们是如何运作的,也不知道他们接受了什么培训。对于专有模型来说,这当然是正确的,但对于它们的开源模型来说,也部分是正确的。在聊天环境中使用助手型模型时,还不清楚它们的额外安全机制是如何运作的。
由于频繁的模型更新,此类模型的结果不稳定,这一事实只会进一步加剧问题。使用我们的数据,使用给定模型进行的实验在几周后重复时通常会产生不同的结果。这当然需要仔细报告所用模型的确切版本。然而,模型并不总是正确存档。开发 ChatGPT 的 OpenAI 等公司甚至倾向于弃用旧模型,使得可重复性几乎不可能(https://platform.openai.com/docs/deprecations)。
第二个值得关注的问题是,由于隐私和知识产权问题,只能使用 GPT 或类似的商业解决方案分析某些类型的数据。可以说,OpenAI 声称它不会“使用您提供给我们的 API 或从我们的 API 接收的内容 […]发展或改善服务“(https://openai.com/policies/terms-of-use)。但这并不意味着他们将来不会这样做,或者以其他方式这样做。
如果要注释的数据受知识产权法保护,则不应将其传输到 OpenAI 平台。事实上,一项使用《纽约时报》文章的大规模研究的作者被迫仅根据标题进行研究,因为其余文本“在公共数据中不可用”。
我们需要注释的文本也可能引发隐私问题。在社会科学中,它们可以由调查中的开放式问题组成,其中包含潜在的识别信息或个人信息,例如医疗状况。这只会进一步推动最近对开源生成式 AI 模型的呼吁。
最后一个关注点与这些LLM对英语的偏见有关。作为有时使用与英语不同的语言的研究人员,我们不禁注意到不同语言的模型性能差异。几篇论文报告说,基于LLM的人工智能助手在英语中表现最好,而在一些资源匮乏的语言中表现相当差。其他人则通过建议先用英语提示模型,或者要求它将提示翻译成英语以获得更好的结果来证实这种趋势。
这种情况肯定会在未来发展,因为 LLM 会接受更多语言的培训。然而,这种观察令人费解,因为考虑到公司或政府的差异投资,语言之间的不平等可能会持续下去。来自资源较少和一小群人使用的语言的地区的语言可能会得到很少的研究时间。这反过来又可能导致对英语语料库的更多关注,而牺牲了其他研究对象和地点。这将是一个错失的机会。
需要明确的是,我们对当前的技术发展感到兴奋,我们在自己的研究中使用了 LLM。我们也乐观地认为,它们可以通过提供负担得起的文本注释方式,在一定程度上帮助减少科学中的不平等,从而为全球更多的研究人员提供文本资源。然而,这些模型所取得的令人眼花缭乱的进步不应掩盖其潜在的缺陷和局限性。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/679655.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux安装单机版redis详细步骤,及python连接redis案例

文章目录 linux相关工具yum方式安装redis使用编译安装redis配置redis为systemctl启动其它: 安装redis6.0python连接redis案例 linux相关工具 ./redis-benchmark #用于进行redis性能测试的工具 ./redis-check-dump #用于修复出问题的dump.rdb文件 ./redis-cli …

MongoDB聚合:$geoNear

$geoNear根据指定的点按照距离以由近到远的顺序输出文档。 从4.2版本开始&#xff0c;MongoDB移除了limit和num选项以及100个文档的限制&#xff0c;如果要限制结果文档的数量可以使用$limit阶段。 语法 { $geoNear: { <geoNear options> } }$geoNear操作接受一个包含…

【报错解决】-bash: export: `-8‘: not a valid identifier 不是有效的标识符

现象 一登陆就提示-bash: export: -8’: not a valid identifier 不是有效的标识符 问题出现的原因 设置字符集时多写了空格 [rootdb1 ~]# cat >>/etc/profile<<EOF export LANGen_US.UTF -8(-8前不应有空格) EOF 解决方法 cd /etc vi profile 把export带有-8的…

188. 买卖股票的最佳时机 IV

188. 买卖股票的最佳时机 IV 题目链接&#xff1a;188. 买卖股票的最佳时机 IV 代码如下&#xff1a; //动态规划 //参考&#xff1a;https://leetcode.cn/problems/best-time-to-buy-and-sell-stock-iv/ class Solution { public:int maxProfit(int k, vector<int>&am…

如何升级至ChatGPT Plus:快速指南,ChatGPT的秘密武器GPT4.0是什么?

提到 ChatGPT。想必大家都有所耳闻。自从 2022 年上线以来&#xff0c;就受到国内外狂热的追捧和青睐&#xff0c;上线2个月&#xff0c;月活突破1个亿&#xff01;&#xff01;&#xff01; 而且还在持续上涨中。因为有很多人都在使用 ChatGPT 。无论是各大头条、抖音等 App、…

利用YOLOv8 pose estimation 进行 人的 头部等马赛克

文章大纲 马赛克几种OpenCV 实现马赛克的方法高斯模糊pose estimation 定位并模糊:三角形的外接圆与膨胀系数实现实现代码实现效果参考文献与学习路径之前写过一个文章记录,怎么对人进行目标检测后打码,但是人脸识别有个问题是,很多人的背影,或者侧面无法识别出来人脸,那…

工具 canvas 画时钟表

自己写的工具&#xff0c;代码和Auto.js有差异 importClass(android.view.MotionEvent) importClass(android.graphics.Paint) importClass(java.util.TimeZone); importClass(java.text.SimpleDateFormat); ui.layout( <vertical><text id"坐标1"/>&l…

powershell 雅地关闭UDP监听器

在PowerShell中优雅地关闭UDP监听器意味着你需要一种机制来安全地停止正在运行的UdpClient实例。由于UdpClient类本身没有提供直接的停止或关闭方法&#xff0c;你需要通过其他方式来实现这一点。通常&#xff0c;这涉及到在监听循环中添加一个检查点&#xff0c;以便在接收到停…

vue-生命周期+工程化开发(三)

生命周期 Vue 生命周期 和 生命周期的四个阶段 思考&#xff1a; 什么时候可以发送初始化渲染请求&#xff1f;&#xff08;越早越好&#xff09;什么时候可以开始操作dom&#xff1f;&#xff08;至少dom得渲染出来&#xff09; Vue生命周期&#xff1a;一个Vue实例从 创建…

【办公类-23-02】20240212徐迟《江南小镇(南浔古镇)》“水晶晶”和景物”数量提取66个

作品展示 背景需求&#xff1a; 2024年春节前夕&#xff0c;我与家人前往浙江湖州、南浔旅行。探寻母亲、外婆外公、曾外婆的祖籍南浔的风土人情。在古镇上看到了”著名诗人“徐迟”的介绍。 母亲说&#xff1a;我的姑母就是在南浔读了小学和中学&#xff0c;她小学时的老师就…

PKI - 借助Nginx 实现Https_使用CA签发证书

文章目录 Pre概述操作步骤1. 生成 CA 密钥对2. 生成自签名的 CA 证书3. 生成服务器密钥对和证书签名请求 (CSR)4. 使用 CA 签署服务器证书 Nginx Https 自签证书1. 生成自签名证书和私钥2. 配置 Nginx 使用 CA签发的 HTTPS 证书3. 重启 Nginx 服务4. 直接访问5. 不验证证书直接…

Junit5基础教程

文章目录 一&#xff0c;导入依赖二&#xff0c;基本功能一、常用断言二、执行顺序和常用注解1、通过BeforeAll类的注解来保证顺序2、通过order注解来保证执行顺序 三、依赖测试四、参数化测试五、测试套件SelectPackages、IncludePackages、SelectClasses、IncludeTags等注解的…

Spark MLlib

目录 一、Spark MLlib简介 &#xff08;一&#xff09;什么是机器学习 &#xff08;二&#xff09;基于大数据的机器学习 &#xff08;三&#xff09;Spark机器学习库MLlib 二、机器学习流水线 &#xff08;一&#xff09;机器学习流水线概念 &#xff08;二&#xff09…

Vue核心基础2:事件处理 和 事件修饰符

1 事件处理 1.1 点击事件 <body><div id"root"><h1>姓名&#xff1a; {{ name }}</h1><h1>地址&#xff1a; {{ address }}</h1><!-- <button v-on:click"showInfo">提示信息</button> --><!-…

Spring中常见的设计模式

使用设计模式是为了可重用代码、让代码更容易被他人理解、保证代码可靠性、程序的重用性、更具有灵活、优雅&#xff0c;而Spring中共有九种常见的设计模式 工厂模式 工厂模式&#xff08;Factory Pattern&#xff09;是 Java 中最常用的设计模式之一。这种类型的设计模式属于…

Linux命令-blkid命令(查看块设备的文件系统类型、LABEL、UUID等信息)

说明 在Linux下可以使用 blkid命令 对查询设备上所采用文件系统类型进行查询。blkid主要用来对系统的块设备&#xff08;包括交换分区&#xff09;所使用的文件系统类型、LABEL、UUID等信息进行查询。要使用这个命令必须安装e2fsprogs软件包。 语法 blkid -L | -U blkid [-c…

C __attribute__编译属性整理

背景 最近在看VPP源码&#xff0c;很多变量、函数都设置了编译属性&#xff0c;编译属性的作用却不是很明确&#xff0c;为了增加记忆以及方便日后查阅&#xff0c;在此整理并分享给大家。 概念 __attribute__是GCC的一大特色&#xff0c;attribute机制可以用于设置函数属性&a…

C语言数据结构:数组 vs 链表的性能评估与适用场景

本文将介绍C语言中的数据结构数组和链表&#xff0c;并对它们的性能进行评估&#xff0c;并提供适用场景的建议。 首先&#xff0c;让我们深入了解数组和链表的本质和特点。 数组是一种线性数据结构&#xff0c;它由一组相同类型的元素组成&#xff0c;这些元素在内存中连续存…

第5集《佛说四十二章经》

和尚尼慈悲、诸位法师、诸位居士&#xff0c;阿弥陀佛&#xff01; 请大家打开讲义第五面&#xff0c;第三章、割爱去贪。 蕅益大师他把《四十二章经》的内涵分成两个部分&#xff1a;第一部分是第一章、第二章的正道法门&#xff1b;其次&#xff0c;第三章之后共有四十章都…

Java图形化界面编程—— ImageIO 笔记

2.8.4 ImageIO的使用 在实际生活中&#xff0c;很多软件都支持打开本地磁盘已经存在的图片&#xff0c;然后进行编辑&#xff0c;编辑完毕后&#xff0c;再重新保存到本地磁盘。如果使用AWT要完成这样的功能&#xff0c;那么需要使用到ImageIO这个类&#xff0c;可以操作本地磁…