语音助手减少不必要澄清问题的技术突破

news/2025/10/20 6:02:14/文章来源:https://www.cnblogs.com/codeshare1135/p/19151681

减少语音助手不必要澄清问题的新方法

当两个人在嘈杂环境中交谈时,如果一方没有听清或理解对方的意思,自然反应是请求澄清。语音助手也是如此。为了避免基于不准确或不完整理解采取潜在错误行动,语音助手会提出后续问题,例如询问定时器应设置为15分钟还是50分钟。

传统上,决定是否提出此类问题基于机器学习模型的置信度。如果模型预测出多个具有高置信度的竞争假设,澄清问题可以帮助从中选择。

然而,对语音助手数据的分析表明,77%的情况下,即使替代假设也获得高置信度分数,模型排名最高的预测仍然是正确的。在这些情况下,我们希望减少提出的澄清问题数量。

在IEEE自动语音识别与理解研讨会(ASRU)上,我们提出了一项工作,通过训练机器学习模型来确定何时真正需要澄清,从而减少不必要的后续问题。

HypRank模型

在大多数语音助手中,客户语音的声学信号首先传递给自动语音识别(ASR)模型,该模型生成关于客户所说内容的多个假设。排名靠前的假设然后传递给自然语言理解(NLU)模型,该模型识别客户的意图(客户希望执行的操作,如播放视频)和话语槽位(意图应操作的实体,如视频标题,其值可能是"哈利·波特")。

在我们的论文中考虑的场景中,ASR和NLU模型生成的假设传递给第三个模型,称为HypRank(假设排序器)。HypRank结合ASR、意图分类和槽位填充的预测和置信度分数与上下文信号(例如特定客户启用了哪些技能),以生成不同假设的整体排名。

澄清与否的决策

在我们的方法中,我们训练另一个机器学习模型来决定是否提出澄清问题。除了ASR、NLU或HypRank分数的相似性外,该模型还考虑另外两个歧义来源:信噪比(SNR)和截断话语。截断话语是指以冠词("an"、"the"等)、几个所有格(如"my")或介词结尾的话语。

作为输入,模型接收排名最高的HypRank假设;任何在其他三个度量上具有足够相似分数的其他假设;SNR;指示请求是否为重复的二进制值;以及指示五种歧义来源中哪些适用的二进制值。

输入假设的数量可能因适用的歧义类型数量而异。因此,所有非排名最高假设的向量表示被组合形成摘要向量,然后与其他输入的向量表示连接。连接后的向量传递给分类器,该分类器决定是否发出澄清问题。

实验

据我们所知,目前没有现有的数据集具有根据准确性标记的多个ASR和NLU假设。为了训练我们的模型,我们使用了由某中心同事去年在NeurIPS人机对话系统研讨会上提出的模型自动注释的数据。

由于数据集中的所有样本都至少具有一种歧义类型,我们的基线是在每种情况下都提出澄清问题。该方法具有零假阴性率(从不会在必要时未能提出澄清问题),但可能具有高假阳性率。我们的方法可能会增加假阴性率,但F1分数的提高意味着它在假阴性和假阳性之间取得了更好的平衡。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/940730.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CH32V003

这是沁恒开发的RISCV32单片机,48MHz,16K Rom,2K Ram,非常便宜,只需要5毛钱左右(其实py32f002系列更便宜性能更强大,但是老外玩的比较少,资料也少) 官方github:openwch/ch32v003: CH32V003 is an ultra-cheap…

PRISMS Senior Varsity Training 20250922

Problem 1 Find the number of integer values of \(k\) in the closed interval \([-500,500]\) for which the equation \[\log(kx)=2\log(x+2) \]has exactly one real solution. Solution 1 \[\begin{align} \log(…

高级语言:面向过程和面向对象

用一个简单的比喻来帮助你理解:“如何完成一顿饭?” 1. 面向过程 (Procedural Oriented) 核心思想:关注“步骤”和“流程”。 这就像你拿到一份菜谱。你必须严格按照步骤来执行: 第一步:洗菜。 第二步:切菜(把土…

Codeforces Round 1060 (Div. 2)

A. Notelock 题意:一个二进制串,问有多少位置的前\(k-1\)个位置没有\(1\)。 从前往后扫,维护一个可以包含的最右位置就行。点击查看代码 #include <bits/stdc++.h>using i64 = long long;void solve() {int n…

https://img2024.cnblogs.com/blog/3001825/202510/3001825-20251020014716729-439844091.png

用一个简单的比喻来帮助你理解:“如何完成一顿饭?” 1. 面向过程 (Procedural Oriented) 核心思想:关注“步骤”和“流程”。 这就像你拿到一份菜谱。你必须严格按照步骤来执行: 第一步:洗菜。 第二步:切菜(把土…

Luogu P14260 期待(counting) 题解 [ 蓝 ] [ 前缀和 ] [ 组合计数 ]

期待:按照部分分一步一步去想应该是不难出正解的,这题难点应该在于实现上。 看到题感觉不太好直接入手,于是先考虑特殊性质。特殊性质 A 的做法比较神秘,特殊性质 B 就是个骗分的,没啥启发性。 而特殊性质 C 是真…

golang unique包和字符串内部化

最近在做老系统优化,正好遇到了需要使用字符串内部化的场景,所以今天就来说说字符串内部化这种优化技巧。 什么是字符串内部化 熟悉Java或者python的开发者应该对“内部化”这种技术不陌生。内部化指的是对于内容完全…

EasySQLite 升级到.slnx 格式后的性能优化效果解析

一、升级动因与行业趋势 1.1 传统.sln 文件的技术瓶颈 在.NET 开发领域,解决方案文件 (.sln) 长期作为项目管理核心,但二十余年未变的自定义文本格式逐渐显现技术瓶颈。该格式包含大量重复配置信息与 GUID 引用,简单…

mochi-mqtt/server golang mqtt 包

mochi-mqtt/server golang mqtt 包最近在学习nats 的mqtt 能力,默认nats mqtt 的实现是3.1.1 的,同时想着集成nanomq 的bridge 进行桥接实现共享订阅的能力,但是发现有一个兼容的问题,似乎是nanomq 在发送3.1.1 协…

有了异步i/o的话,还需要协程么

1、异步 I/O 和协程区别 这个其实触及了高并发架构的底层原理:“异步 I/O 和协程有什么区别?如果我已经用异步 I/O(如 NIO、Netty、epoll),还需要协程吗?”我们来一步步拆开讲清楚(这题很多人理解偏差)👇一、…

永久暂停window10更新,不想更新到window11

视频:https://www.bilibili.com/video/BV1jsTMz9EUz?t=144.0 饱受自动更新之苦,现提供一个3分钟可以“永久”关闭Windows更新的思路。具体步骤: 1、Win+R,regedit打开注册表编辑器; 2、找到路径HKEY_LOCAL_MACHI…

102302148谢文杰第一次数据采集作业

第一题 核心代码与运行结果点击查看代码 import requests from bs4 import BeautifulSoup# 目标URL:2020年中国大学排名页面 url="http://www.shanghairanking.cn/rankings/bcur/2020" response=requests.g…

算法第二章作业

找第 k 小的数的分治算法自然语言描述: 找第 k 小的数的分治算法,首先要选择一个基准元素,然后将数组分成两部分,一部分是小于等于基准元素的数,另一部分是大于基准元素的数。假设基准元素在划分后位于数组的第 m…

完全免费的 claude 工具,真香!

完全免费的 claude 工具,真香!刚把我这段时间用 puter 搭的一个 Claude 对话小工具上线了,免费的。 它不是那种“神乎其神”的产品,但确实帮我写方案、理思路、看代码,节省了很多来回搜索的时间。 登录即可使用,…

RaspberryPi 个人服务搭建

# RaspberryPi 个人服务搭建 > 树莓派及其他debian衍生版本服务> > 版本:Linux debian 6.12.48+deb13-amd64 #1 SMP PREEMPT_DYNAMIC Debian 6.12.48-1 (2025-09-20) x86_64 GNU/Linux> > 日期:2025年…

tryhackme-预安全-网络如何工作-网站如何工作-11

tryhackme-Pre Security-How The Web Works-How Websites Work 房间地址:https://tryhackme.com/room/howwebsiteswork 这是网络安全入门的基础模块的计算机科学基础知识:How Websites Work(网站如何工作),序号 0…