自动评估对话质量的AI技术突破

news/2025/10/13 6:03:54/文章来源:https://www.cnblogs.com/codeshare1135/p/19137628

自动评估与语音助手的对话质量

随着与语音助手的交互越来越多地涉及多轮对话,这些对话被用来完善请求细节或协调多个技能。与所有已部署的AI模型一样,对话模型需要定期评估以确保满足用户需求。但评估对话交互是一项挑战;传统上需要人工判断,这使得评估缓慢且成本高昂。

在自然语言处理实证方法会议(EMNLP)上,我们提出了一种基于神经网络的新模型,旨在估计用户对对话交互的满意度。

技术创新

新模型采用双向长短期记忆网络(bi-LSTM)正反向分析交互序列,配合注意力层确定哪些对话轮次对整体满意度贡献最大。在涉及28个领域(如音乐、天气、电影和餐厅预订)的三组用户测试中,该模型比先前基于神经网络的模型准确率提高27%,比团队早期模型准确率提高7%。

模型优势

早期模型利用了特定对话管理器的功能,而新模型无需依赖这些特定功能,这意味着它能够泛化到新的对话管理系统或替代方案。研究人员通常使用逐轮评分的训练数据,因为人们在逐轮评估上更容易达成一致。

在新工作中,我们同时使用逐轮数据和整体用户评估来训练模型,通过注意力机制加权各轮次评分对最终分数的贡献。这些权重从数据中学习,并能跨多个技能和任务泛化。

特征优化

在先前工作中,我们确定了48个不同特征用于预测用户满意度。在新工作中,我们仅保留原特征集中最通用的12个特征,并基于通用句子编码器(USE)新增5个特征。USE通过将输入文本表示为多维空间中的点,使相关文本聚集在一起。新特征包括用户和系统话语的USE嵌入及它们之间的相似性度量。

这一特征集比早期工作使用的更具通用性,适用于各种对话管理器和领域。使用该特征集训练的模型表现优于早期模型——即使测试数据包含早期模型训练所用的特定对话行为。

架构细节

论文中首先考虑使用LSTM网络预测逐轮评分的模型。LSTM按顺序处理输入序列,使每个输出都考虑先前输入和输出。随后提出的模型版本用双向LSTM替代LSTM,正向和反向处理相同数据,联合预测逐轮评分和整体对话评分。

双向LSTM的输出通过注意力层,该层赋予某些对话轮次更高权重,然后传递到网络的最终分类层。训练期间用于评估模型的损失函数是轮次级别评分和整体对话评分的加权组合。

在持续工作中,我们计划扩展模型以考虑个体用户偏好。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/935848.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

4.2 基于模型增强的无模型强化学习(Model-based Augmented Model-free RL)

基于模型增强的无模型强化学习(Model-based Augmented Model-free RL) (Dyna-Q, I2A)Dyna-Q 算法 在学习到环境模型之后,可以利用该模型增强无模型算法。 无模型算法(如 Q-learning)可从以下两种类型的转移样本中…

乐理 -07 和弦, 和声

#和弦 与 和声..#三和弦#大三和弦 与 小三和弦 感情。 多数情况下#增三和弦 与 减三和弦 纯五度是协和的 增五度减五度不和谐 增五度 多用于扩张的 大六度 减五度 多用于收缩的 纯四度 大三度

4.1 基于模型的强化学习(Model-based RL)

基于模型的强化学习(Model-based RL)无模型与有模型方法的比较在此前介绍的无模型(Model-free, MF)强化学习中,我们无需了解环境的动态规律即可开始训练策略: \[p(s | s, a), \quad r(s, a, s) \]我们仅需采样状…

3.8 最大熵强化学习(Maximum Entropy RL, SAC)

最大熵强化学习(Maximum Entropy RL, SAC)背景 此前的所有强化学习方法均专注于最大化回报(return),这对应于强化学习中的利用(exploitation):我们只关心最优策略。 而探索(exploration)通常由额外机制实现,…

乐理 -06 和弦, 和声

#和弦 与 和声..#三和弦大三和弦 与 小三和弦 感情。 多数情况下

3.7 带经验回放的演员–评论家算法(Actor-Critic with Experience Replay, ACER)

带经验回放的演员–评论家算法(Actor-Critic with Experience Replay, ACER)概述 前述自然梯度方法(如 TRPO、PPO)均为随机演员–评论家(stochastic actor–critic)结构,因此属于 on-policy 学习。 相比之下,o…

3.6 策略优化(TRPO 与 PPO)

策略优化(TRPO 与 PPO)信赖域策略优化(Trust Region Policy Optimization, TRPO) 基本原理 @Schulman2015 将自然梯度的思想推广到非线性函数逼近(如深度网络),提出了 TRPO。 该方法已在实践中被 PPO(Proximal…

3.5 自然梯度(Natural Gradients)

自然梯度(Natural Gradients)学习稳定性 此前介绍的深度强化学习方法均使用随机梯度下降(SGD)或其变体(RMSProp、Adam 等)来训练神经网络函数逼近器。 其基本思想是:沿损失函数梯度的反方向(或策略梯度的正方向…

3.3 离策略演员–评论家(Off-policy Actor–Critic)

离策略演员–评论家(Off-policy Actor–Critic)On-policy 与 Off-policy 演员–评论家算法通常是on-policy(同策略)的:用于探索环境的动作必须由当前策略生成,否则评论者(Critic)提供的反馈(优势项)会在策略…

3.4 深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)

深度确定性策略梯度(Deep Deterministic Policy Gradient, DDPG)背景与动机 在前面的策略梯度方法中,演员(Actor)产生的是随机策略 \(\pi_\theta(s)\),即输出动作的概率分布(离散动作)或分布参数(连续动作)。…

20232325 2025-2026-1 《网络与系统攻防技术》实验一实验报告

一、实验内容 本次实验以Linux可执行文件pwn1为对象,核心目标是通过三种技术手段篡改程序执行流程,触发原本不可运行的getShell函数或自定义shellcode,具体如下: (一)手工修改可执行文件,直接跳转到getShell函数…

MINIX 3 值得仔细研究 from Tanenbaum A., Bos H. Modern Operating Systems 5ed 2023

10.1.6 MINIX One property that all modern UNIX systems have is that they are large and complicated, in a sense the antithesis of the original idea behind UNIX. Even if the source code were freely avail…

乐理 -06 相对音感 绝对音感

相对音感 判断两个音之间的距离练习绝对音感 无参照音下判断

【光照】UnityURP[天空盒]原理与[动态天空盒]实现

《Unity URP动态天空盒技术解析》专栏文章摘要:URP天空盒采用立方体贴图技术,通过六面HDR图像构成全景环境,作为无限远背景始终跟随摄像机。核心技术包括:1.基于主光源方向的昼夜动态切换(smoothstep平滑过渡);…

实验1 现代c++初体验

task 1.cpp1 #include<iostream>2 #include<string>3 #include<vector>4 #include<algorithm>5 6 template<typename T>7 void output(const T& c);8 9 void test1(); 10 void test…

Hadoop概念以及安装

Hadoop概论Hadoop是一个由 Apache基金会所开发的分布式系统基础架构。 主要解决,海量数据的存储和海量数据的分析计算问题。 广义上来说, Hadoop通常是指一个更广泛的概念 Hadoop生态圈。Hadoop三大发行版本:Apache、…

presto配置

presto启动时默认配置文件目录在安装目录下的etc下每个节点的配置 在etc下创建node.properties文件,配置如下: node.environment=production node.id=ffffffff-ffff-ffff-ffff-ffffffffffff node.data-dir=/var/pres…

Hadoop--MapReduce

dr.who是通过http连接的默认用户,可以直接在配置文件里面修改为当前用户,重启之后就可以使用当前用户在页面里面对文件进行相关操作。 MapReduce概述 分布式运算程序的编程框架,是用户开发“基于Hadoop的数据分析应…

Hadoop--yarn

Yarn资源调度器 Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。 Y****arn基本架构 YARN主要由ResourceM…

AI元人文构想框架体系

AI元人文构想框架体系 一、核心概念与理论基础 1.1 基本定义 AI元人文构想:一种革命性AI发展范式,旨在构建能够理解、协调并增强人类复杂价值体系的新型人工智能系统。其核心特征包括:从"优化工具"转变…