Nature Machine Intelligence 法国国家科学研究中心评论“使用大语言模型进行研究的危机”

ChatGPT 于 2022 年底发布，将大型语言模型（LLM）推到了聚光灯下。通过使用户能够直接用自然语言查询模型，ChatGPT 实现了对这些模型的访问——这是一个受欢迎的发展。从那时起，ChatGPT 和 Bard、Claude 和 Bing AI 等类似工具在各种任务中都展示了它们的多功能性和效率。
社会科学家很快就接受了这些模型。他们使用这些基于LLM的AI助手来总结研究文章，调试代码，甚至在计算机模拟中模拟调查参与者，实验对象或代理。研究人员还采用它们来注释文本。通过向机器传递一个简单的提示，他们现在可以对数千个文档进行分类。他们可以根据自己的编码方案快速、精确地做到这一点。
作为多年来一直在使用各种类型的LLM来注释文本数据的社会科学家，我们对这些发展感到兴奋。到目前为止，我们自己的实践包括在特定任务上微调 LLM——也就是说，为模型提供成百上千个示例以“训练”它们。结果是不可否认的，但这些示例的手动注释通常是一个漫长而乏味的过程。
因此，我们欢迎这些模型的到来，但我们也对它们进行了测试。我们将 ChatGPT 的输出与我们的模型的输出进行了比较，并对新生文献进行了彻底的审查。结果有时是好的，有时真的很糟糕。他们很少超过特定任务的 LLM。
然而，这个结论似乎并不是使用这些新方法的最大问题。我们认为，在我们出于科学目的使用这些工具之前，需要解决三个问题。
我们首先关注的是这些模型所获得结果的可复制性。一些人认为 GPT 3.5（为 ChatGPT 免费版本提供动力的模型）对提示很敏感，但另一些人则认为它对收到的请求措辞的微小变化非常强大。
在我们看来，更大问题的是用户无法对分析中使用的模型施加控制。当然，也有经典的批评，认为这些模型是“黑匣子”。我们不知道他们是如何运作的，也不知道他们接受了什么培训。对于专有模型来说，这当然是正确的，但对于它们的开源模型来说，也部分是正确的。在聊天环境中使用助手型模型时，还不清楚它们的额外安全机制是如何运作的。
由于频繁的模型更新，此类模型的结果不稳定，这一事实只会进一步加剧问题。使用我们的数据，使用给定模型进行的实验在几周后重复时通常会产生不同的结果。这当然需要仔细报告所用模型的确切版本。然而，模型并不总是正确存档。开发 ChatGPT 的 OpenAI 等公司甚至倾向于弃用旧模型，使得可重复性几乎不可能（https://platform.openai.com/docs/deprecations）。
第二个值得关注的问题是，由于隐私和知识产权问题，只能使用 GPT 或类似的商业解决方案分析某些类型的数据。可以说，OpenAI 声称它不会“使用您提供给我们的 API 或从我们的 API 接收的内容 […]发展或改善服务“（https://openai.com/policies/terms-of-use）。但这并不意味着他们将来不会这样做，或者以其他方式这样做。
如果要注释的数据受知识产权法保护，则不应将其传输到 OpenAI 平台。事实上，一项使用《纽约时报》文章的大规模研究的作者被迫仅根据标题进行研究，因为其余文本“在公共数据中不可用”。
我们需要注释的文本也可能引发隐私问题。在社会科学中，它们可以由调查中的开放式问题组成，其中包含潜在的识别信息或个人信息，例如医疗状况。这只会进一步推动最近对开源生成式 AI 模型的呼吁。
最后一个关注点与这些LLM对英语的偏见有关。作为有时使用与英语不同的语言的研究人员，我们不禁注意到不同语言的模型性能差异。几篇论文报告说，基于LLM的人工智能助手在英语中表现最好，而在一些资源匮乏的语言中表现相当差。其他人则通过建议先用英语提示模型，或者要求它将提示翻译成英语以获得更好的结果来证实这种趋势。
这种情况肯定会在未来发展，因为 LLM 会接受更多语言的培训。然而，这种观察令人费解，因为考虑到公司或政府的差异投资，语言之间的不平等可能会持续下去。来自资源较少和一小群人使用的语言的地区的语言可能会得到很少的研究时间。这反过来又可能导致对英语语料库的更多关注，而牺牲了其他研究对象和地点。这将是一个错失的机会。
需要明确的是，我们对当前的技术发展感到兴奋，我们在自己的研究中使用了 LLM。我们也乐观地认为，它们可以通过提供负担得起的文本注释方式，在一定程度上帮助减少科学中的不平等，从而为全球更多的研究人员提供文本资源。然而，这些模型所取得的令人眼花缭乱的进步不应掩盖其潜在的缺陷和局限性。