自动评估问答模型的技术突破

news/2025/10/9 19:21:23/文章来源:https://www.cnblogs.com/codeshare1135/p/19131812

自动评估问答模型

随着自然语言处理(NLP)在日常生活中的应用日益广泛,准确评估NLP模型的能力变得愈发重要。部署的商业NLP模型需要定期测试以确保性能稳定,模型更新也需要监控以验证是否比之前版本有所改进。

理想情况下,模型评估应该是自动化的,以节省时间和人力。但在问答领域,自动模型评估非常困难,因为问题和答案可能以多种不同方式表达,且答案必须根据其满足用户信息需求的能力来评判,这是一个难以量化的概念。

在今年北美计算语言学协会(NAACL)会议上,我们提出了首个能够检查任何类型问题长答案正确性的机器学习模型。我们将这种方法称为AVA(自动评估方法)。

在一组实验中,我们使用AVA评估了几个不同问答模型提供答案的正确性,并将结果与人工评估进行比较。相对于人工判断,性能最佳的AVA版本(使用我们在论文中提出的新型peer attention机制)错误率仅为7%,具有95%的统计置信度。

多样化问题

其他NLP应用已受益于自动评估方法。例如,机器翻译研究通常使用BLEU分数来衡量翻译准确性,该分数测量机器翻译模型输出与参考翻译之间的相似性。

但这种方法不适用于问答评估。在翻译中,输入文本与输出文本相对应;而在问答中,两者并不对应。此外,在问答中,输出文本(即答案)可能差异很大,但仍传达相同信息。

更重要的是,在问答中,核心关注点是答案是否正确。从结构上看,候选答案可能与参考答案完全相同,仅在决定正确性的关键信息上有所不同。这些考虑因素使得问答模型评估比其他NLP模型评估更加困难。

模型架构

在我们的NAACL论文中,我们考虑了四种不同的机器学习模型来评估问答准确性。第一个是简单的线性模型,另外三个是基于Transformer语言模型的神经网络模型。

我们考虑具有答案选择组件的问答方法,其中基于问题文本的网页搜索返回大量文档,答案选择模型根据这些文档中提取的句子回答问题可能性进行排序。

所有四个模型的输入都包括问题、参考(正确)答案和候选答案。

其中一个是线性模型,我们使用它是因为它比神经模型更易解释。它接受其他模型没有的额外输入:参考答案的简短版本(例如用"3900万"代替"截至2018年,加利福尼亚州的常住人口已增加到3900万人")。

使用Jaccard相似度的变体,线性模型计算简短答案与候选答案、参考答案与候选答案、参考答案与问题、候选答案与问题之间的成对相似度。它还根据候选答案包含简短答案的单词数量进行评分。每个度量都被分配一个从训练数据中学得的权重,如果这些度量的加权和超过某个阈值(也从数据中学得),模型就判断候选答案正确。

其他三个模型使用预训练的基于Transformer的网络,这些网络将文本及其组成部分之间的关系表示为多维空间中的嵌入。作为输入,这些网络可以接受句子对,将它们转换为反映从训练数据中学到的语言和语义关系的嵌入。

在我们的第一个基于Transformer的模型中,我们考虑三种不同类型的输入对:问题-参考、问题-候选和参考-候选。我们还考虑了一个模型,它将这三个对的表示连接起来,生成所有三个输入的表示。在四个不同的实验中,我们训练分类器基于这四种表示中的每一种来预测答案句子的准确性。

在我们的第二个基于Transformer的模型中,我们将每个文本与其他两个的串联配对。同样,我们将其他三个嵌入连接起来,生成输入数据的整体表示。

最后,我们的第三个模型使用我们新颖的peer attention机制。该模型接受两个输入句子对,而不是一个。与第二个模型一样,每个对包括一个句子和其他两个句子的串联。

如上图所示,在传递到分类器之前,每个对的嵌入都以另一个对的嵌入为条件。这使得模型能够更好地利用不同类型句子对之间关系的共性——例如,使用问题和参考答案之间的相似性来识别参考和答案候选之间的相似性。

评估结果

我们在几个不同的预训练答案选择模型上测试了我们的方法。每个评估模型的输入包括源问题、参考答案和由答案选择模型预测的答案。

使用我们peer attention机制的评估模型提供了最佳性能,在预测人类标注者关于答案正确与否的判断方面,F1分数接近75%。

此外,我们在整个测试集(数千个问题)上对不同问答模型输出的AVA判断进行了聚合。这提供了不同模型准确性(正确答案百分比)的估计。然后我们将这些估计与基于人工判断的准确性度量进行比较,同样是在整个测试集上。这使我们能够计算AVA相对于人工评估的总体错误率,在95%的统计置信度下小于7%。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/933800.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

task8.c

task8.cinclude<stdio.h> include<math.h> int main() { double s, a, b, c, area; while (scanf_s("%lf%lf%lf", &a, &b, &c) != EOF) { s = (a + b + c) / 2; area = sqrt(s * (s…

运行Udacity的MPC控制项目指南(project_10)在Ubuntu 18.04环境下

系统更新与工具安装更新系统包列表:打开终端并运行以下命令以确保所有软件包都是最新的。 sudo apt update sudo apt upgrade安装构建工具:安装编译器和构建依赖项。 sudo apt install build-essential cmake git li…

深入解析:Java 将 PDF 转换为 PDF/A:数字文档归档的基石

深入解析:Java 将 PDF 转换为 PDF/A:数字文档归档的基石pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consola…

入门正当时!MQTT协议轻量简洁,但应用绝不简单

MQTT凭借低带宽、低功耗的优势成为物联网通信的基石。尽管协议本身简洁,但其在真实项目中的部署与优化却充满挑战。本教程助你从基础迈向实战。 MQTT——全称Message Queuing Telemetry Transport消息队列遥测传输协议…

MFC中开源布局库---ResizableLib - 教程

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

英语阅读

桥梁书: https://zhuanlan.zhihu.com/p/1919350330669397464

JetBrains 官宣 DataGrip 数据库 IDE 现可免费用于非商业用途,适用于 2025.2.4 或更新版本

JetBrains 官宣 DataGrip 数据库 IDE 现可免费用于非商业用途,适用于 2025.2.4 或更新版本JetBrains 官宣 DataGrip 数据库 IDE 现可免费用于非商业用途,适用于 2025.2.4 或更新版本2025/10/3 22:37:36 来源:IT之家…

CF1832D2 Red-Blue Operations (Hard Version) 模拟赛题目分析

CF1832D2 Red-Blue Operations (Hard Version) 题目概述 给你 \(\{a_n\}\),第 \(i\) 次操作,如果是你第奇数次操作当前位置则令它 \(+i\) 否则 \(-i\)。 给出 \(q\) 个询问,问你进行完 \(k\) 个操作之后 \(a\) 中的…

PostgreSQL pg_auto_failover 高可用 1:pg_auto_failover集群搭建

PostgreSQL pg_auto_failover 高可用 1:pg_auto_failover集群搭建 0,pg_auto_failover架构 开始之前,先看一下pg_auto_failover的一个最基础架构原理如下,需要弄清楚几个节点的作用 1,monitor节点纯粹是一个监控…

详细介绍:cpolar让Nastool影音库随身而行,随时随地享受视听自由

详细介绍:cpolar让Nastool影音库随身而行,随时随地享受视听自由pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "…

网络流最小割,无向图建图法,求最小割点转换求最小割边

洛谷P1345 假设原来的点编号为i,总共有n个点,那么我们就把每个点拆成两个点,编号分别为i和i+n。其中点i负责连接原图中连入这个点的边,点i+n负责连原图中连出这个点的边。 add ( i, i+n, 1 ) ; add ( i+n, i, 0 )…

2025/10/9

2025/10/9学习算法 学习数据结构 写题

看论文随笔Incendio: Priority-Based Scheduling for Alleviating Cold Start in Serverless Computing

基于优先级的无服务器计算冷启动调度 首先摘要: 说明,在无服务器中,冷启动会导致较长的响应延迟。 解决方法是通过减少冷启动的次数来缓解。 然而,现实中,最小冷启动次数并不等于最小响应延迟,根本原因是通过冷启…

深度学习概述 - -一叶知秋

深度学习概述复杂模型 S曲线S曲线改变参数加入更多的Features 例子 1、搭建模型 括号里的作用就是得出 r蚂蚁线内的作用是将 r 通过sigmoid函数,得出 a一个简单的写法最后都乘以 c 加到一起在加 b 得出 y线性代数表示…

C++新语法学习笔记(更新我不会写的新语法)

C++新语法学习笔记(更新我不会写的新语法)顺序填充数组:iota,在头文件numeric中 iota(.begin(), .end(), 参数);//从参数开始填充:参数,参数+1

烧录神器来了!量产工具使用教程,新手也能秒懂

想提升烧录效率?这个量产烧录工具简直是神器!下面为你带来详细上手教程,零基础也能快速掌握,实用干货,免费分享! 本文以Air780EPM开发板为例,演示量产烧录工具的使用步骤。 最新量产烧录工具使用指南详见: htt…

深入解析:C++基础(21)——内存管理

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

C#性能优化基础:内存诊断(dump)

接上一篇:C#性能优化基础:垃圾回收机制本文说下怎么去查找内存问题,举个例子,我们有这样的一段程序:namespace ConsoleApp1{internal class Program{static List<Demo> Demos { get; } = new List<Demo&…

2025年企业级LLM内容安全防护指南:鉴冰AI FENCE流式网关技术深度解析

2025年企业级LLM内容安全防护指南:鉴冰AI FENCE流式网关技术深度解析随着生成式AI在企业关键业务中的深度应用,LLM输出违规内容防护已从技术选项升级为合规刚需。AI-FOCUS团队推出的鉴冰AI FENCE(AI安全围栏)采用流…

完整教程:FPGA学习笔记——图像处理之亮度调节(Gamma)

完整教程:FPGA学习笔记——图像处理之亮度调节(Gamma)pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas…