改变世界,改善生活:我从科沃斯扫地机器人X1,看到了AI新的希望

深度学习是当代人工智能的核心,计算机视觉、语音、NLP则是当代人工智能落地的热门应用方向。然而,机器人、智能agent这种看起来更加“人工智能”的话题却在大众视野出现的越来越少,取而代之的热点讨论反而是看似与人工智能关联不是那么直接的“AI赋能搜推广”。

做AI就是做搜推广?那为什么不直接去做搜推广呢?

恐怕这也是进入工业界的AI从业者时不时冒出来的困惑。

说好的“AI改变世界,AI改善生活”呢?

直到笔者近期入手了科沃斯的新品扫拖机器人X1,顿时觉得AI技术就该这样走进人们的生活中,用AI技术去解放人们的双手,让人与机器的交互更加自然。

科沃斯X1传送门

YIKO与对话技术

“OK,YIKO,去打扫卧室!”

这是笔者在得知科沃斯X1内置的对话系统叫“YIKO”时,对YIKO发出的第一条指令。收到YIKO的回复时,顿时觉得对话技术的成熟着实有现实意义!

我们知道,工业界常用的任务完成式对话框架一般包含语音识别(ASR)、自然语言理解(NLU)、对话管理(DM)、自然语言生成(NLG)和语音生成(TTS)模块。如下图所示:

其中,语音识别是系统接收用户信号的第一级模块,语音信号接收的质量、信号处理的质量决定了ASR效果的天花板,尽管在NLP层面对话系统有诸多难点,也是研究热点,但在实际的工业界对话产品中,ASR识别错误却往往更为致命。因此一个商用的对话系统若要体验好,首先要有强大的语音硬件设备和良好的产品设计支撑。

在语音硬件设计层面,科沃斯X1在机身顶部环形位置配置了三颗环形MIC阵列,采用环形麦克风设计——可以更加全方位无死角的拾取用户语音信号,使其具备强大的ASR硬件支撑。

此外,科沃斯X1更是巧妙的结合视觉技术,能够在用户召唤后,让机器人转向主人,更加精确的接收语音指令,甚至完成“来我身边打扫”这类高级指令。此外,科沃斯X1内置的降噪技术、回声消除等技术,也保障了其能够在嘈杂的工作状态下,仍然能实现高达96%的语音唤醒成功率 (来自科沃斯实验室测试数据)。

如果说ASR技术是实现流畅对话的可靠性保障,那NLU则是关乎对话系统聪明与否的重要模块。传统的内置语音控制的扫地机器人往往仅能支持固定指令,而科沃斯X1则实现了将指令泛化成众多语言表述的能力,例如无论用户是表达,扫一下,还是打扫,清扫,清洁,干活儿等,YIKO均能准确理解,这便是NLU模块的功劳。

在有了扎实的ASR和NLU基座之后,对话管理模块(DM)则汇聚各方信息和系统状态,扮演了决策中枢的角色。

例如,

“OK,YIKO,到客厅的沙发进行清扫!”

YIKO收到该指令并ASR转成文本后,NLU模块将理解后的指令发送给DM模块,DM结合对家居的理解,配合AI视觉导航,准确找到客厅及位于客厅的沙发的位置,并查询系统位置状态,计算出最优通行路径,进而一方面让TTS模块合成语音告知用户自己“听懂了”,另一方面将路线决策传递给机器人“运动中枢”,机器人到达指定位置后,X1将开始辛勤工作。

对话管理模块的设计强依赖对家居环境的理解,以及目标检测、地图建模等技术模块的协同,科沃斯X1能够有效将用户指令转化为复杂的系统决策,靠的便是这份聪明的对话决策中枢——DM模块,这也是YIKO系统的技术壁垒所在。

YIKO除了可以流畅与用户进行日常清扫的交互,还内置了诸多贴心实用的对话技能。例如:

OK,YIKO,耗材到期了吗?“

——“当前耗材情况良好,请放心使用

“OK,YIKO,来找我。”

——“好的,让我看看你在哪儿,请原地稍等”

“OK,YIKO,你会些啥?”

——我会做的事情可多了,试着对我说“OK,YIKO,播放音乐”,我会开始播放音乐。如果想了解更多,打开App找到更多的语音指令吧。

总之,X1成为家庭的一份子后,我们就不再需要找遥控器,不需要找说明书,不需要下载APP在里面点点点,直接对话就可以跟YIKO进行日常操作了!

这不就是最为自然炫酷的人机交互形态吗?

确实,对话系统不一定非要替代人工客服才叫落地,也不一定非要成为无所不能无所不知的智能助理智能音箱,更不一定能够胜任“虚拟女友”才能叫技术成熟。将目光拉近,若复杂家电内置的对话系统普遍像YIKO一样取代说明书和APP,用最自然的方式满足用户需求,那这标志着人机交互的新时代可能真的来了。

如今主打情感聊天的诸多对话产品内置了很多先进的超大模型,动辄上亿参数。学术前沿更为夸张,似乎模型没个百亿参数都不好意思对外宣传。然而,将场景拉近到现实生活的点滴中,YIKO扎实的将对话技术与扫地机器人场景进行了深度融合,打造出了该场景下扎实的ASR技术、聪明的NLU模块、智慧的DM中枢和逼真有特点的TTS单元,做到了在机器人的召唤、操控、查询等诸多维度上非常高的完成度,其带给笔者的赞叹度可能丝毫不亚于一个拥有百亿参数的复杂聊天机器人。

而这种系统级、业务场景深度定制的优化,或许正是大部分“人工智障”产品所欠缺的。

X1中的视觉技术

桌子、凳子、猫、地毯、玩具、人…无论房间多大,总是少不了各种奇奇怪怪的障碍物。因此一个“机灵”的扫地机器人,一定离不开强大的计算机视觉能力——物体识别与目标检测技术。

经过笔者对科沃斯X1的若干天试用,其对障碍物的识别与避障能力大大超出了笔者的预期。出于好奇,笔者调研了科沃斯发表的目标检测技术相关论文和博客。挖掘出了科沃斯机器人内置的目标检测模型和系统工作流程,如图所示:

众所周知,在目标检测领域,有one-stage和two-stage两种思路,虽然精度方面前者略逊于后者,但前者需要的计算资源开销却远少于后者,更加适合电力敏感的场景。科沃斯正是使用了one-stage的方式进行目标检测建模。

在模型结构方面,科沃斯则沿用了SSD detector的设计思路,但是设计了一个计算量显著减少的轻量特征抽取网络以替换SSD中的VGG backbone。

为了减少计算量,科沃斯设计的轻量级特征抽取网络一方面使用depthwise separable convolutions替换了传统的卷积操作,这种方式仅需要1/9的计算量就可以完成3*3的传统卷积。此外,科沃斯还使用了ReLU6作为激活函数,进一步减少了计算量。还将浅层特征与高层特征进行拼接,有效提升了机器人视野中的小型目标的召回率等。可以说这个改进的模型结构更加契合扫地机器人的低功耗、小型物体召回要求高等特点。

而在bounding box预测阶段,科沃斯同样做了诸多针对扫地机器人的优化工作。例如,借助大量的场景数据积累,科沃斯借助遗传算法为不同的物体类别学习了不同数量和大小的bounding box,从而可以有效召回更多的正样本,避免在训练阶段遭遇验证的正负比不均衡问题。下图是优化前后的大小物体的召回数量对比,可以说非常显著了

在loss层面,科沃斯还在focal loss的基础上,对物体位置引入了weighting策略,从而引导模型对位置相近的物体给予更多的注意力,这也更加贴合机器人实际场景的目标检测特点和难点。

此外,科沃斯还首次突破壁垒,将AIVI视觉识别与3D检测融合,进一步提升了避障精度。

简单来说,摄像头组件虽然对于物体识别来说基本够用,但对于深度探测方面则表现不佳。对于以上案例,机器人若想走出一个“不知道什么东西”的巨大障碍物的包裹,显然需要对障碍物的距离信息有足够精确的把握,这样在机器人偶然转动到出口方向时,才会以比较高的置信度将该方向判别为“正确的发力方向”。

尽管原理清晰,但毕竟深度探测与摄像头属于两个通道的信息,要将双通道信息做到合理的融合和联合决策,同样是一个颇具挑战的事情。除了必要的算法支撑外,还需要工程层面对现实世界的大量Corner case有较为充分的挖掘和建模,这是极端情况下不掉链子的重要保障。

科沃斯与AI技术

可能读者会疑惑,为什么通篇都是科沃斯而不是其他机器人产品呢?

并不仅仅是因为笔者入手了全球销量第一的科沃斯,而且科沃斯机器人还是全球最早的服务机器人研发与生产商之一,已经成为了行业标准的制定者,且拥有行业规模最大、最权威的机器人实验室,超700人的研发团队和超1000项的发明专利。

在AI技术层面,科沃斯更是一家可圈可点的科技公司:

• 2013年,地宝9开创性地将旋转式LDS雷达放在扫地机器人身上

• 2018年,将Smart Eye视觉导航用在地宝上,科沃斯成为行业内唯一一家同时布局VSLAM和LDS-SLAM双技术路线的公司

• 2019年,科沃斯行业内第一个推出了AIVI人工智能的产品,可以像人一样实现视觉避障

• 2020年,提出True Detect 3D结构光避障技术,第一次将避障技术推到毫米级

可以说,科沃斯一直在技术层面革新进步,引领着行业的一次次突破。

期待科沃斯能为我们带来更多“未来感”的黑科技!

科沃斯X1传送门

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/477799.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据开放平台的配置管理

背景 美团是数据驱动的技术公司, 非常重视使用数据的效率。为了达到这个目标,我们将数据以开放平台的形式开放给需求方。例如,帮助需求方开发报表的报表开放平台,帮助需求方获取数据的自助查询平台,让需求方参与数据建…

LeetCode 1271. 十六进制魔术数字(进制转换)

1. 题目 你有一个十进制数字,请按照此规则将它变成「十六进制魔术数字」:首先将它变成字母大写的十六进制字符串,然后将所有的数字 0 变成字母 O ,将数字 1 变成字母 I 。 如果一个数字在转换后只包含 {“A”, “B”, “C”, “…

评测任务征集 | 全国知识图谱与语义计算大会(CCKS 2022)

评测任务征集全国知识图谱与语义计算大会(CCKS 2022)2022年8月25-28日,秦皇岛http://sigkg.cn/ccks2022/全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and SemanticComputing)由中国中文信息…

SegmentFault 美团云采访实录

约半年前,美团悄然上线了美团云(Meituan Open Services,简称MOS),这是美团网根据自身虚拟化平台开发和运维经验开放的云计算服务,类似AWS。 美团 CEO 王兴可能是中国最知名的连续创业者,曾创办校…

开局一段扯,数据全靠编?真被一篇“神论文”气到了

文 | 苏剑林(追一科技)编 | 智商掉了一地看来以后我们看论文的时候,不仅要关心论文成绩的可复现性,还要留意它们的求和、均值、方差等有没有算错,否则真的是“无奇不有”!!这篇文章谈一下笔者被…

LeetCode 147. 对链表进行插入排序(链表)

1. 题目 对链表进行插入排序。 插入排序的动画演示如上。从第一个元素开始,该链表可以被认为已经部分排序(用黑色表示)。 每次迭代时,从输入数据中移除一个元素(用红色表示),并原地将其插入到…

征稿 | 软件学报专刊征文:知识赋能的信息系统

伴随着人工智能的浪潮,智慧信息系统的发展方兴未艾,正处于由感知智能到认知智能转变的关键时期。要实现认知智能的系统跃升,离不开知识的赋能。在数字化转型背景下,数据对象和交互方式的日益丰富和变化,对以知识图谱为…

基于Flume的美团日志收集系统(二)改进和优化

在《基于Flume的美团日志收集系统(一)架构和设计》中,我们详述了基于Flume的美团日志收集系统的架构设计,以及为什么做这样的设计。在本节中,我们将会讲述在实际部署和使用过程中遇到的问题,对Flume的功能改进和对系统做的优化。 …

LeetCode 462. 最少移动次数使数组元素相等 II(数学)

1. 题目 给定一个非空整数数组,找到使所有数组元素相等所需的最小移动数,其中每次移动可将选定的一个元素加1或减1。 您可以假设数组的长度最多为10000。 例如: 输入: [1,2,3] 输出: 2说明: 只有两个动作是必要的(记得每一步仅可…

embedding亦福亦祸?XGBoost与LightGBM的新机遇

文 | 水哥源 | 知乎Saying1. 小的性能差异在容易实现面前一文不值,这一点是XGBoost和LightGBM的最大优势2. 没能与embedding很好地结合无疑是树模型的灾难,吃不下巨量的新数据,也打不过DNN,除了一些规模比较小的公司,树…

论文浅尝 - ACL2022 | 面向推理阅读理解的神经符号方法

转载公众号 | 南大Websoft概述近两年来NLP领域出现了一些富有挑战性的机器阅读理解数据集,如ReClor和LogiQA。这两个数据集中的问题需要对文本进行逻辑推理,然而传统的神经模型不足以进行逻辑推理,传统的符号推理器不能直接应用于文本。为了应…

美团数据仓库的演进

美团数据仓库,在过去的两年中,与我们的业务一起高速发展。在这一演进过程中,有很多值得总结和沉淀的内容。这篇文档回顾下美团数据仓库这两年发展过程中遇到的各种问题,为什么选择了现在的技术方案,每一个功能和模块是…

LeetCode 1026. 节点与其祖先之间的最大差值(二叉树DFS)

1. 题目 给定二叉树的根节点 root,找出存在于不同节点 A 和 B 之间的最大值 V,其中 V |A.val - B.val|,且 A 是 B 的祖先。 (如果 A 的任何子节点之一为 B,或者 A 的任何子节点是 B 的祖先,那么我们认为…

凭“难听”上热搜的 idol 们,不如考虑下让 Transformer 帮您作曲?

视频制作 | 白鹡鸰编 | 小轶考虑到 “AI 音乐”这一主题的特殊性,唯有多媒体的视频形式才能更好地给大家带来视听上的多重感受。于是,小屋的白鸟鸟同学在科研间隙连续肝了好几个晚上,才得以完成这次视频。然而在上周的推送中,不知…

YUI3在美团的实践

美团网在2010年引爆了团购行业,并在2012年销售额超过55亿,实现了全面盈利。在业务规模不断增长的背后,作为研发队伍中和用户最接近的前端团队承担着非常大的压力,比如用户量急剧上升带来的产品多样化,业务运营系统的界…

论文浅尝 - ICLR2022 | OntoProtein:融入基因本体知识的蛋白质预训练

论文题目:OntoProtein: Protein Pretraining With Gene Ontology Embedding本文作者:张宁豫(浙江大学)、毕祯(浙江大学)、梁孝转(浙江大学)、程思源(浙江大学&#xff09…

LeetCode 540. 有序数组中的单一元素(位运算二分查找)

1. 题目 给定一个只包含整数的有序数组,每个元素都会出现两次,唯有一个数只会出现一次,找出这个数。 示例 1: 输入: [1,1,2,3,3,4,4,8,8] 输出: 2示例 2: 输入: [3,3,7,7,10,11,11] 输出: 10注意: 您的方案应该在 O(log n) 时间复杂度 和 O…

迁移Prompt–解决Prompt Tuning三大问题!

文 | Harris刘鹏飞博士将近代NLP的研究划归为四种范式 [1] 并把预训练语言模型加持下的Prompt Learning看作是近代自然语言处理技术发展的“第四范式”。当我们使用新范式的方法的时候,能够意识到它带来的优异性可能是以某种“人力”牺牲为代价的。而如何让这种人力…

征文 | 2022年全国知识图谱与语义计算大会(CCKS 2022) 征稿通知

2022年全国知识图谱与语义计算大会征稿通知Call for Papers2022年8月25日-28日,秦皇岛征稿截止: 2022年5月22日第十六届全国知识图谱与语义计算大会(CCKS: China Conference on Knowledge Graph and Semantic Computing)由中国中文信息学会语…

Spring Cloud 和 Dubbo 哪个会被淘汰?

今天在知乎上看到了这样一个问题:Spring Cloud 和 Dubbo哪个会被淘汰?看了几个回答,都觉得不在点子上,所以要么就干脆写篇小文瞎逼叨一下。 简单说说个人观点 我认为这两个框架大概率会长期都存在。 时至今日,这两个…