企业门户网站的意义杨凌开发建设局网站

news/2025/9/24 8:49:15/文章来源:
企业门户网站的意义,杨凌开发建设局网站,修改wordpress热门文章的数量,企业模板wordpress本文转载自公众号#xff1a;AI科技大本营。 分享嘉宾 | 刘升平#xff08;云知声 AI Labs 资深技术专家#xff09;来源 | AI 科技大本营在线公开课人机对话系统#xff0c;或者会话交互#xff0c;有望成为物联… 本文转载自公众号AI科技大本营。                                                         分享嘉宾 | 刘升平云知声 AI Labs 资深技术专家来源 | AI 科技大本营在线公开课 人机对话系统或者会话交互有望成为物联网时代的主要交互方式。而语言的理解与表达和知识是密切联系的知识图谱作为一种大规模知识的表示形式在人机对话系统中各模块都有重要的应用。而知性对话则是基于知识图谱的人机会话交互服务。 AI 科技大本营邀请到了云知声 AI Labs 资深专家刘升平针对「基于知识图谱的人机对话系统方法与实践」做系统的讲解和梳理。 本次公开课介绍了知性会话的架构和关键技术并结合工业级的人机对话系统实践经验阐述了知识图谱在人机对话系统的核心模块上面的应用等等。  刘升平云知声 AI Labs 资深技术专家/高级研发总监。前 IBM 研究院资深研究员中文信息学会语言与知识计算专委会委员。2005 年获得北京大学数学学院博士国内语义网研究的开创者之一是 2010 年和 2011 年国际语义网大会的程序委员会委员。曾在语义网机器学习、信息检索医学信息学等领域发表过 20 多篇论文。在 IBM 工作期间两次获得 IBM 研究成就奖。2012 年底刘博士加入云知声 AI Labs领导 NLP 团队全面负责自然语言理解和生成、人机对话系统、聊天机器人、知识图谱、智慧医疗等方面的研发及管理工作。 在本次公开课上他全面而具体地讲述了知识图谱在人机对话系统中的发展与应用主要分为以下四部分 语言知识、对话系统综述知性会话的基本概念及案例分析知性会话的关键技术知识图谱的构建实体发现与链接知性会话的关键技术话语理解及自然应答生成▌一、语言、知识与人机对话系统综述1. 语言和知识语言和知识是密切相关的。这张冰山图很形象地解释了语言和知识的关系我们看到的语言只是冰山上的一小角就是我们说的话。但是你如果想理解这句话跟这句话相关的背景知识就像冰山下面这一大块。 所以这也是自然语言跟语音、图像很不一样的地方我们听语音或看一个图片它的所有信息都在语音信号或者图像像素里但是语言的话就完全不是这样这也是自然语言理解远远比语音识别或者图像识别更难的一个地方。 这次的报告内容综合了我最近三年在CCKS会议上做的三个报告。 2. 人机对话系统 人机对话系统最早在工业界引起比较大的轰动是 Apple Siri它当时还是 iPhone 上的一个 APP2010 年被苹果收购了。Siri 的创新在于我们传统的手机 GUI 界面上加了一个语音 Voice-UI。 真正引发人机对话系统革命性创新的是于 2014 年推出的 Amazon Echo它是一个完全基于语音交互的硬件其语音技术比 Siri 前进了一大截因为它支持远讲。 2017 年亚马逊又推出了一个带屏幕的音箱 Amazon Echo Show大家觉得这是不是又回到 Siri还是基于 GUI 呢这里要注意区别 Amazon Echo 是 VUIGUI也就是说它是以 VUI 优先的因为语音的优势是输入很便捷你说几个字就能代表一段指令可以代替操作很多界面。但缺点是输出很低效如果在屏幕上显示很多内容但是你要用语音说出来可能得花好几分钟。所以 VUIGUI 的结合是把两者优势做了整合VUI 用来做输入GUI 用来做输出。 更高级的形态是现在很多电影都能看到的像Eva、《钢铁侠》或者《西部世界》里面这种人形的机器人完全可以跟人自由对话它的交互是 VUI真正模拟人的多模态的交互形态这个时间点也许在 2045 年会出现。 为什么人机对话系统目前在工业界这么热门它最重要的一个意义是有望取代目前在手机上的 APP成为 IoT 时代的一个最重要的人机交互形式这是它的最主要意义所在。3. 人机对话系统的交互形式和应用场景就像人和人说话有多种目的和形式一样人机对话系统也包含很多种交互形式 1、聊天。典型代表是小冰它包括问候和寒暄其特点是没有明确目的而且不一定回答用户的问题。聊天在现有的人机对话系统中主要是起到情感陪伴的作用。 2、问答。它要对用户的问答给出精准的答案。这些问题可以是事实性的问题如“姚明有多高”,也可能是其他定义类描述类或者比较类的问题。问答系统可以根据问答的数据来源分为基于常见问题-答案列表的FAQ问答基于问答社区数据的CQA问答基于知识库的KBQA问答。 3、操控只是解析出它的语义来供第三方执行最典型的操控是打开空调、打开台灯或者播放某一首歌。 4、任务式对话。它是一个目的性很强的对话目标是收集信息以完成某个填表单式的任务最常见的像订外卖、订酒店、订机票这种方式通过对话来做。 5、主动对话。让机器主动发起话题不同的是前面的交互都是让人来主动发起这个交互。 目前人机对话系统的应用场景有很多像音箱、电视、空调等等其显著特点是它不是人可以直接触摸到的可以将语音交互看成遥控器的一种替代品有遥控器的地方就可以用语音来交互。 另外一个应用场景是在车载方面因为在开车时你的眼睛和手脚都被占用着所以这时通过语音来接听电话、导航甚至收发微信是非常方便的也比较安全。车载是刚需场景所以目前出货量最多是在这块。像我们是从 2014 年开始做车载语音交互方案到现在有 1500 多万的出货量。 另外一个应用领域是儿童教育机器人右下角这些各种形状的儿童机器人实际上可以看成儿童版的音箱它的内容是面向儿童的但是交互形式也是人机对话的方式。 4. 人机对话技术架构 人机对话系统从学术界来讲它的研究历史非常悠久可能 AI 提出以后在七八十年代就开始研究。它的技术分为五大部分1、语音识别主要解决复杂真实场景噪声、用户口音多样的情况下把人说的话转成文字即做到“听得清”。 2、语义理解主要是把用户说的话转成机器能理解执行的指令或查询即做到“听得懂”。  3、对话管理维护对话状态和目标决定系统应该怎么说、怎么问下一句话也就是生成一个应答的意图。 4、自然语言生成就是根据系统应答的意图用自然语言把这个应答意图表达出来。 5、语音合成 用机器合成的语音把这句话播报出来。这样形成一个完整人机对话的闭环。5. 语音识别场景演进 因为人机对话系统是以语音作为入口所以需要讲讲语音技术这块的进展。强调一点的是如果想真正做好人机对话系统除了对自然语言处理技术了解之外对语音技术也必须有所了解。 最早像 Siri 这样的场景是近讲模式它最主要解决的问题是口音问题目前这方面的识别准确率非常高已经能做到 97% 左右大家平时用的手机语音输入法就是这种模式一般建议离麦克风的距离是30cm左右。 Amazon Echo 则是远讲模式你可以离麦克风 3 米甚至 5 米这么远。它要解决的问题很多因为你离它远了以后更容易受周边噪音的影响还有一个更致命的影响是声音反射引起的混响问题特别是在玻璃房里声音不断在反射麦克风收到的声音就是很多声音混杂在一起。还有一个很不一样的地方就是我们用微信语音的时候可以按下说或者按着一直说但当你面对一个音箱时因为你离它有 3-5 米远不可能按着说话的这时就有新的技术叫“语音唤醒”就像我们跟人说话时叫人的名字一样像“HiGoogle”先唤醒机器再同它对话。 目前语音识别最难的场景是人人对话在人和人对话的时候先对它做录音而且要把它转成文字这个最常见的场景像开会自动把不同的人说话转录下来甚至自动形成会议纪要。还有像司法的庭审只要是和人说话的场景下都可以用到。这里面最难的问题是鸡尾酒会问题很多人在一起环境很嘈杂大家都在说话人可以听到只关注的人的说话即使很嘈杂但两个人一样可以聊天对话但这对机器来说很难。6. 人机对话系统中的机器角色演进 在人机对话里面机器的角色有个演进的过程最早人机对话很简单可以看成是个遥控器的替代品用户通过固定句式或者单句指令来控制这个系统。 Siri、Amazon Echo 是一种助手的形态也就是说你可以通过自然语言交互且对话是多轮的甚至可以让机器有些情感。 但是下一个阶段是它会变成专家的角色特别是面向行业或者特定领域时当我们跟音箱对话时希望这个音箱同时也是一个音乐专家它可以跟你聊音乐的问题可以跟你聊古典音乐甚至教你一些音乐知识。我们跟儿童教育机器人对话时希望这个机器人是一个儿童教育专家我们跟空调对话时希望后面是个空调专家。这时它的特点是需要有这个领域的知识而且能够帮你做推荐、做决策。▌二、知性会话基本概念及示例分析 我们做对话必须理解这几个概念——语义、语境、语用。特别是语境它就是在对话时才有含义语境就是指人和人发生对话时的一个具体环境这个环境又包括言语语境就是我们所说的上下文还有很多非言语语境如说话的时间、地点、天气都是非言语语境还有说话人的信息等等我们今天强调的知识也是一种重要的非言语语境。 假如用户说「太冷了」这三个字语义是温度有点低但如果考虑语用这句话在特定语境下面传递的会话意义、真实含义 如果在车里面开着空调理解这句话的意思是把空调温度调高一点如果是冬天没有开空调这句话的意思可能是把车的暖气打开或者把车的窗户关上现在马上到秋天了如果一个女孩子对你说「太冷了」她的含义可能是想让你给她一个拥抱之类的。所以语境和语用是非常重要的概念如果做人机对话系统都会接触到这两个概念。 1. 人机设备对话系统下的语境 刚才是说人和人对话时语境很关键现在我们做人机对话系统人和设备对话的时候有哪些语境呢 1、物理语境。也就是你说话当时现场的信息包括1时间、地点、场所这个场所是指在车里或在家里等等。2天气。3情绪和情感。4设备上面显示的内容。5设备能感知到的信息比如我们和空调对话空调能够感知到室内外的温度、湿度。这个语境的生命周期是请求级的。 2、言语语境。1上下文设备上和设备上面反馈的信息也是一种上下文这个生命周期可以看成是会话级的。 3、知识语境。包括1人类的常识和领域知识。举个简单的例子以前我们一句话叫「中国乒乓球队谁也赢不了」还有「中国足球队也是谁也赢不了」这两句话看起来字面是一样的但人能够理解这两句话的差别因为我们有常识是中国足球队很弱中国乒乓球队很强。所以知识对这句话的理解至关重要。2用户画像包括用户的一些基本信息用户的性别、年龄、文化水平、爱好等等。3Agent 画像就是这个机器人定义的信息像小冰把它的 Agent 画像定义为一个 18 岁的邻家小妹。4设备信息库如果把音箱作为中控的话中控连接的设备信息、设备状态等都是语境。如果在家里对中控说「我回家了」这句话到底是什么含义中控可能会根据你的设备状态、根据当前的环境情况给你决定是开灯还是关灯是给你开窗户还是拉窗帘等等。 2. 不要神话知识图谱 知识图谱的历史和概念大家已经比较理解了我这里主要强调几个基本概念最重要的知识图谱概念就是「ThingsNot Strings」知识图谱里面的东西都是一个个实体而不是字符串。 另外我们也不要神化知识图谱它其实只是一种知识的组织形式而已。因为不管做什么应用在各种场景下都有知识以前可能用其他方式来表示这个知识。在概念层我们以前也接触过类似的东西就像我们做关于数据库建模时用 ER 模型它也是一种概念模型。我们写程序做面向对象设计时会画些类图这些都是概念模型这些模型都可以很方便的转成知识图谱来表示。我认为知识图谱首先是知识的一种组织形式。在数据层知识图谱是一种图模型它是用节点、边来表达实体、值、关系和属性等。3. 什么是知性会话什么叫知性会话我这里举个例子用户可能跟音箱聊天「你喜欢谢霆锋」「喜欢他很酷」「你知道他女朋友是谁吗」「王菲」「来一首她的《传奇》」这是一种操控机器就会给你播放王菲的传奇播放之后系统还可以接着问说「你还想听李键的原唱吗」这是一种主动对话用户说「好的」系统可以播放李键的《传奇》用户还可以问「他的音乐风格是什么样的」系统说「李健的风格有民谣的简洁但比民谣华丽得多。」 你看这个例子的话它涉及很多跟音乐相关的知识还包括一些歌星的人物相关的知识。交互形式有聊天、问答、操控、主动对话是通过知识把它们关联在一起你会感觉整个对话是个很流畅的对话。 总结下来知性会话的意思是它以知识图谱为中心通过实体发现与链接技术把各种各样可以用来作为对话的数据源融合在一起实现跨领域、跨交互形式的多轮对话。  知性会话的主要特点有一是跨领域跨交互形式共享上下文你可以看它的聊天和问答可以衔接在以前二是它体现了领域专家的机器人定位它对这些领域的知识非常了解可以在聊天或者问答中体现出它掌握的领域知识。它有这方面的知识后也可以主动发起一些对话。 知性会话的核心技术有离线处理首先要有知识图谱所以有一个知识图谱构建的问题。另外我们要把各种跟对话相关的数据通过实体发现与链接技术跟知识图谱关联起来。在线处理。基于知识做话语理解怎么在聊天里把知识融合进去还有基于知识图谱的问答基于知识图谱的主动对话等。▌三、知性会话关键技术一知识图谱构建1. 知识图谱的构建方法  这里我引用复旦肖老师总结的知识图谱构建方法第一步是做模式设计我们要定义有哪些类或概念、哪些属性或关系。 第二步确定我们的知识从哪来所谓的数据来源这里可以通过对一些结构化的数据、非结构化的数据做转换、对非结构化的数据即文本从里面去信息抽取。 第三步知识图谱里最重要的是词汇的挖掘各种同义词、缩略词、短语等等。 第四步有词汇不够我们要把同义词聚集为一个概念也就是所谓的实体发现包括实体实现、实体归类、实体链接等等。 第五步除了实体之外知识图谱里还有边也就是关系我们要做关系的抽取。 第六步因为我们的知识图谱可能来源于不同的数据源所以我们要做知识的融合主要是实体对齐、属性融合、值的规范化。 最后对知识图谱的质量做检查控制包括知识的补全有错的话要纠错还有知识更新最后形成一个领域的知识图谱。 2. 知识图谱的评估方法 如果你不知道怎么评价知识图谱的话就根本不知道你的知识图谱建得好还是坏、有用还是没用。评估的方法基本可以分为四大类别最重要的类别是第二类基于应用把知识图谱在应用里看效果怎样通过应用效果来间接评估知识本体。我们不要先找几十个人花一两年建知识图谱然后再去找应用而是知识图谱必须是应用驱动的根据应用效果来评价知识图谱这是推荐的一个方法。 还有基于黄金标准评估也就是说如果我们有些好的知识图谱或者我们可以建一个小的知识图谱根据这个标准知识图谱去评估我们建的知识图谱的情况。我们可以看看计算概念和关系的覆盖率即有多少出现在标准知识图谱中的概念和关系被包含了这可以评价我们的建的知识图谱是否完整。 另外简单的评估方式基于指标。可以定一些统计指标比如这个知识图谱里有多少概念、多少关系、关系属性然后我们还可以对它进行抽查看它的准确率、一致性等指标。 3. 敏捷构建 我们现在做应用很多情况都是做敏捷开发也就是说可能半个月或者一个月就会发一次版本这时候我们知识图谱也要跟着应用快速迭代这时候是需要对知识图谱敏捷构建的过程。这里强调我们要对知识图谱做自动化的测试测试完之后要判断它是否能够发版发版之后要继续分析它目前的问题。可以把知识图谱看成一个软件它是不是有哪些 bug 或者需要哪些新功能根据这些制定下一个版本的发版计划。核心想法就是把知识图谱也看成是一个软件也要有版本管理也要有敏捷的开发。二实体发现与链接 需要解决的问题如果我们这时候已经有知识图谱了现在还依赖于实体发现与链接技术。这个技术解决刚才那个问题「Thinksnot Strings」它最重要的问题是把字符串和知识图谱的实体关联起来。它要解决两个问题一个是我们同一个意义可能有表达不同的形式像「科比」、「黑曼巴」、「科神」很多是指的科比这个人。还有一个是自然语言或者字符串本身有歧义性就像「苹果」可能是指苹果电脑、苹果手机也可能是一个水果。 解决方法所以它的做法是分两步实体发现和实体链接实体发现是发现文本中的 mention就是字符串像「这个苹果很贵」的「苹果」是 mention。实体链接是把这个 Mention 和知识图谱里的实体关联起来知识图谱里的实体关于「苹果」可能有多个实体有苹果公司还有苹果这个品牌还可能是苹果手机、苹果电脑还有水果叫苹果等等这里的「苹果」到底指哪个呢可能要靠上下文的判断。 1. 基于实体的多源数据融合 我这里举个很简单的知识图谱谢霆锋的女友是王菲王菲唱了《传奇》这首歌《传奇》这首歌的原唱是李健。 我们在对话这块的数据来源有几个一个是聊天库像「你喜欢歌手谢霆锋吗」「喜欢他很酷。」还有 FAQ 库我们可能从百度知道或者很多地方可以找到社区问答的数据就像这里说「谁能说说李健的音乐风格」「李健的风格有民谣的简洁但比民谣华丽得多。」 我们也会从网上找到很多文档包括百科的文档或者网页性的文档我们对这些文档、聊天库、FAQ 库、文档库我们都要去做实体链接把这里面出现的歌手和我们知识图谱的歌手关联起来。 2. 如何进行实体发现与链接 第一步预处理首先建立一个 mention 到 entity实体的关系这也是目前这个算法的局限性我们事先要知道一个 mention 可能对应到哪些实体。然后抽取实体相关特征 一是实体的先验概率。就像苹果可能是水果的先验概率为 40%是苹果手机的先验概率为 60%如果我们说葡萄呢可能葡萄是水果的先验概率有 90%10% 是其他东西。二是实体上下文的词分布我们看这些实体周边到底是什么词或者它篇章的主题词就像苹果手机出现在文章里都是科技类的主题词。三是实体之间的语义关联度因为知识图谱是一个图的结构所以每个实体环绕它周边都有些其他的实体这些实体都是相关的特征。 第二步这时实体链接就变成一个排序问题找到 mention 之后我们可以根据前面 mention 关系表找到它的候选实体现在保持只需要对候选实体排序返回一个最可能的实体。 第三步对候选实体进行排序可以用最基本的方法。这个有两大类一个是实体本身的信息还有一个是可以利用实体和实体之间的协同关系做排序。如果是苹果旁边的实体都是偏电脑类的那这个苹果可能就指苹果电脑。三融合知识的话语理解做完实体链接处理以后可以做真正的对话系统这一块对话系统里最基本的是对用户话语的理解我们怎么去理解用户说的一句话。第一步要做实体的发现与链接像刚才那个例子「你喜欢谢霆锋吗」我们要把谢霆锋跟知识图谱的实体关联起来。 第二步做指代发现比如「你知道他女朋友是谁」那这个「他」到底是指谁我们首先要发现他是一个指代词然后再根据上下文去判断「他」在这个例子里面是谢霆锋这个实体。 另外我们做语义理解还有一种情况是结合知识做消歧义。比如用户说「周巧文的生日」因为《生日》是一首歌的名字周巧文是这个歌的歌手这时候我们理解它是个音乐因为本来就在音箱下面这时我们可以直接播放周巧文的《生日》这首歌。但是如果系统又问一下「刘德华的生日」这时候虽然我们的命名实体识别很有可能把「生日」也可能打成歌名的标签刘德华打成歌手的标签歌手的歌名很容易以为是播放音乐但是我们通过知识的验证知道刘德华并没有唱过这首歌这时候要转成问答这不是一个操控性的指令。直接返回他的生日说「刘德华的生日是 1961 年 9 月 27 日」。 这几个例子是我们通过知识帮助去理解用户的指令。我下面再讲一下怎么把知识和聊天结合起来。四融合知识的聊天1. 上下文现在学术界都用深度学习模型所以我会简单讲一下深度学习的方法把它的基本思想讲一下。我们现在一般在学界把聊天变成一个 Sequence-to-Sequence 的模型就是有一个 encoder对输入进行编码为向量 通过 decoder 把应答生成出来。这时核心问题变成怎么把上下文加进去最基本的方法是把上下文的文本跟当前文本的向量合在一起作为 encoder 的输入另外我们可以把上下文作为向量在 decoder 阶段输入或者用主题模型对这个 session 去建模把这个 session 主题模型也作为 decoder 的输入这样就可以实现一并上下文的效果。 2. 一致性聊天还有一个很重要的问题是一致性。我们刚才说语境里面有一个agent画像跟我聊天的对象虽然是机器人但是它有统一的人格它的性别、年龄、籍贯、爱好应该是一致的这是目前聊天机器人里面最难的一点。你对机器人问它「多大了」它可能说「18 岁」如果你再去问一下「你今年高寿」它很有可能回答「我今年 88 岁」或者问你「芳龄几许」它很有可能回答「小女子今年芳龄二八等等」。  为什么会出现这种情况因为目前聊天的机器人都是靠从各个来源去收集各种语料堆在一起的对这种语料并没有做归一化处理因为有的语料说「我今年 88 岁」有的语料里面可能说「我今年 18 岁」等等这时候换个方式问它可能会出现问答不一致的地方。更复杂的例子你问它「你出生地在哪里」它说「我在北京」然后问它「你是中国人吗」它可能就回答不了虽然人类常识知道北京属于中国等等。 在深度学习里如果想把这些所谓的机器人的信息进行建模或向量化处理导入到 decoder 模型里去这时候它会优先从身份信息的词向量去生成应答这样也能达到一定一致性的效果。 3. 融合知识 另外做问答的时候像我们这个例子问「姚明有多高」我们生成比较自然的问答说「他是两米二六他是唯一一个可以从太空看到的人类。」当然这是开玩笑的。这种聊天就融合了知识它知道姚明的身高。这时候通过深度学习模型做 decode 时除了生成常规的应答之外有部分的应答还要从知识库里去检索然后再把这个应答跟文本的应答拼在一起。 更多的类似工作可以看看获得今年IJCAI杰出论文奖的黄民烈老师的工作。四基于知识的问答知识问答主要有两种方法一种是基于 Semantic Parsing 的传统方法它是把一个问题解析成一个形式化的查询语言再把查询语言知识库里面做查询。这个方法的最大难点是把自然语言的问题转成这样一个形式化的查询语言。同样也有很多方法最简单的基于规则、基于模板复杂点的基于翻译模型、基于深度学习模型等。   目前学术界比较多的是基于机器学习的知识库的问答方法这里面它的基本思想是把问题建模成一个 embedding然后对知识图谱也做 embedding变成一个个向量这个问答就转换成了一个相似度匹配的问题把知识库里的子图的向量跟问题对应子图进行相似度匹配。  还有很多其他方法目前比较多的是基于网络的方法基于带注意力机制的循环神经网络的方法。这块我给一个参考大家可以看一下《揭开知识库问答 KB-QA 的面纱》这篇文章讲得非常详尽、非常好。我个人的观点是现在基于深度学习的知识库问答目前在工业界这块不是很成熟它的效果不太可控我们在系统里还是用基于传统的 Semantic Parsing 问答。 在 CQA 上也有很多把知识结合进去的方法。CQA 最核心的问题是我们要算用户的问题和在我们问答库里问题的语义相似度这里的核心问题是怎么能把知识放到对句子的向量表示里。最近的 SIGIR2018 中提到把知识和注意力的神经网络结合在一起的方法。现在这种论文基本都是一个网络图。另外一篇文章也是类似的总体是在文本做排序时把知识向量化。五基于知识的主动会话这个实际上是非常关键的。在我们人机对话系统特别是在 VUI 交互下 VUI 音箱是没有界面的这就意味着你无法知道这个音箱到底支持哪些功能。当你面对音箱的时候你怎么知道它的功能到底哪些话能说哪些话不能说或者它有什么东西这时候很需要机器人主动的对话能引导用户用它知道它的功能。 再举个例子如果一个用户说「来首《传奇》」机器可以主动问他说「播放以后还想听听李健原唱吗」其实它的思想很简单就是根据我们的知识图谱里面看看相同实体下面有没有其他关系或者属性或者推荐一个相同关系下面其他的实体。这里一篇百度的文章思想也是类似的如果觉得聊天聊不下去了会先在上下文里去做实体分析和实体链接找到作为聊天主题的实体之后再根据知识图谱找相关的实体根据相关的实体产生话题。▌四、总结前面把聊天、问答、对话、语义解析怎么跟知识结合起来做了简单的介绍。接下来做个总结 第一为什么人机对话系统很重要 1、它有可能成为物联网时代的最主要交互形式类似于 OS。 2、知性会话的核心是知识图谱。它最重要的是做两件事情一是线下要做基于知识图谱做多源数据的融合二是在服务时要做基于知识图谱聊天、问答、对话、操控一体化。 3、从技术上来讲深度学习和知识图谱技术的结合是目前最重要的一个趋势。我个人比较看好 Sequence-to-Sequence 模型因为它的表达能力非常丰富而且应用场景非常多基本上自然语言处理里面大部分的问题都可以建模成一个 Sequence-to-Sequence。包括我们的翻译是一个语言到另外一个语言还有聊天问答甚至拼音输入法就是把拼音序列转成文字序列等等还有做分词、词性识别、命名实体识别等等都是 Sequence-to-Sequence这种模型分为 encoder 和 decoder 两个阶段它在不同的阶段都可以把一些知识融合进去。 第二在人机对话系统里的技术演进是怎样的  1、在对话里不能只看语义还要看语用语用就是「语义语境」。 2、我们不能只做闲聊式的机器人而且是希望我们机器人是掌握领域知识它是有文化的而且文化水平还很高是个领域专家是知性会话。 3、流式对话。我们目前跟音箱的交互都是先唤醒说「小爱同学给我点首歌」又说「小爱同学播放下一首」。非常麻烦但人和人对话是不会总频繁叫人的名字的这时候就需要流式对话这块的技术难点是怎么判断一个人说话是不是说完了你是否可以打断这是目前技术上最难的一点。还有一个是怎么去拒绝噪音因为现在对话是没有唤醒词的这时候旁边人的说话甚至电视里面说的话很有可能被误识别机器也会对它做响应。▌五、答听众问 Q我们公司在构建电商的知识图谱但是电商的数据是每天都会更新的有什么好的办法对知识图谱进行更新吗而且基于 neo4j 的图谱如何做知识推理 A这是个好问题。我们刚才强调知识图谱要敏捷构建敏捷构建就意味着你可以频繁的发版本这时候就有版本合并的问题其实也是更新的问题。更新这块主要的技术是知识本体的融合或者知识实体的匹配、实体的对齐。如果更新的数据量不是很大的话我建议的方法是先通过实体对齐的技术把更新的数据自动添加到知识图谱里去如果量不大的话还需要做人工的 review看更新的数据是否 OK。这个我认为也没有什么特别好的办法因为更新本来就是知识图谱里最难的问题。 neo4j 的图谱如何做知识推理首先我个人认为它不太适合存储海量的知识图谱电商的数量应该很大的这时候用 neo4j 合适不合适还有待商榷。如何做知识推理我们一般认为知识图谱最主要的是知识尽量少去做推理因为推理是挺难的一个东西而且也没有特别工业化成熟度很高的工具。第二如果非要做推理的话我们一般做线下的推理就是预先把推理做好把它能展开的数据全展开也叫「知识补全」就像简单的传递性的关系或者预先把它都展开相当于存储空间换时间这是一个比较常用的方法。我们现在不太建议线上服务时做实时推理因为那个性能一般很难达到要求。 Q本体构建的大致方法能简单介绍一下吗 A本体构建的方法从大的面来讲有两种一种是传统基于专家的方法就是请一般专家全手工构建他们对每个词、每个实体、词之间的关系都开会讨论最后决定应该这样、应该那样这是专家驱动的方法。但这种方法已经不太可行而且这种方法也会成为我们做知识图谱的瓶颈因为我们期望知识图谱是一个敏捷构建的。 目前大部分是数据驱动的方法就是我们通过数据挖掘去自动构建知识图谱适当地基于人工的 review。我倾向于极端的方法我推荐的方式是知识图谱的构建整个是全自动但是也需要专家的参与但是专家参与不是做 review、不是做构建而是做评测。整个知识图谱的效果根据应用的效果说话这个应用不能假设整个知识图谱是完全正确的、完整的的。我们可以通过快速迭代不断的对知识图谱去做更新然后根据自动化的测试或者根据人工的抽样检查和应用的效果去看知识图谱的质量。只要我们知识图谱的质量能够满足应用的需求就 OK。 Q实体抽取有一个大致的最佳实践吗 A最佳实践是这样的如果从工业界角度看的话实体抽取肯定是多个方法的融合基于词典、基于规则、基于统计学习方法、基于深度学习方法没有一个方法就能搞定所有的问题。虽然词典挖掘这个东西没有技术含量但是实践中基于词典的方法是非常有效的方法特别是在垂直领域里面像医疗这种领域当然在有些领域可能这个方法不靠谱比如在音乐领域音乐里面有歌名任何一个词都可能是歌名。 但基于词典方法还有一个重要考虑一定要考虑这个词典的这个词有没有歧义或者一个词的先验概率。比如「我爱你」也是一首歌名但是它是歌名的概率可能不是特别大但「忘情水」是歌名的概率就很大所以词典不是简单的词条列表而是要带先验概率的信息。 Q知识图谱还需要语义网的知识吗构建 OWL 可还需要很强的领域知识 A我们刚才说到知识图谱的前身是语义网所以如果想更加深刻理解知识图谱还是要了解一下语义网的知识特别像 RDF OWL 的规范是要了解一下的。 OWL 的这个本体语言还是有点偏复杂目前基本上不太推荐知识图谱搞得那么复杂基本对应到 RDF 那种形态就差不多了。我们希望知识图谱可以构建尽量大但是它从逻辑上来讲尽量简单不要用 OWL 里面复杂的东西。一点点语义可以走得很远没必要把模型搞得太复杂因为把模型搞得太复杂的一个最重要难点是当你把实体放进去时你很难判断这个实体属于哪个概念。 Q心理学出身的研究者在 NLP 学术领域是否有竞争力对于心理学研究者转向 NLP 学术圈有哪些建议 A这个问题挺有意思的。我们组里有一个主力骨干就是学心理学出身的但他当时学的心理学是偏统计方面的心理学也就是计量心理学这方面的所以他相对有一定的统计基础。这时候由统计基础转向到 NLP因为有数学基础是比较容易一点的。另外一点心理学比较有意义的是认知这一块因为神经网络这些原理跟认知心理学有一定的关系所以心理学知识对转到 NLP 挺有帮助的。 关于具体的建议不管哪个专业转到 NLP最重要的是学好数学和机器学习最基础的东西这个基础打好了转向 NLP 就比较简单了。 Q基于知识的方法和统计类的方法需要共融互补老师有没有典型的合作思路充分利用基于知识规则方法的稳定可控的同时又能利用统计从有监督的大数据自动抽取模式是否可以讲讲两者一起 NLP 的经验 A现在人工智能主要是三大学派——知识图谱派、统计学习派、深度学习派从工业界角度来看在解决具体问题时各有所长所以需要把这三者融合在一起真实的线上系统不会只有一个方法。所以知识方法是一个很重要的方法而且它跟深度学习是有比较好的互补性特别是可以提供深度学习方法里面没有的可解释性这一块。 具体怎么融合最简单的融合方法就是做模型Ensemble把几个分类器组装在一起这个可以看周志华老师那本「西瓜书」因为周老师做模型的 Ensemble是最拿手的。 此外把知识或规则都可以作为特征从这个角度融合在一起。另外深度学习里的解码器也可以把知识融合进来所以这块的方法是很多的。【完】OpenKG.CN中文开放知识图谱简称OpenKG.CN旨在促进中文知识图谱数据的开放与互联促进知识图谱和语义技术的普及和广泛应用。点击阅读原文进入 OpenKG 博客。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/915400.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网站服务器备案查询网站备案棋牌源码论坛

一、行业背景 二、行业特点 1.供电可靠性要求高:医院配电系统复杂,门诊、急救、手术室、ICU/CCU、血液透析等场合特一级和一级负荷比较多,一旦发生故障会造成严重影响,对配电可靠性要求极高。 2.能耗水平高:医院能耗…

网站开发的费用景德镇建站公司

注意:这种写法,是有问题的。注册事件是在页面加载完毕以后就完成了,但此时并没有触发事件。事件触发是由用户在页面上点击时才会触发,所以说当用户点击时,才会执行事件处理函数,那么此时的i已经变成了4&…

做企业网站有什么好处访问紧急升级中通知问升级

近日博主 ruanyf 在网上发布了一条关于套接字“socket”的解释,引发了网友对于那些 IT 界的神翻译的讨论: 突然想到,socket就是插座。服务器的socket,就是服务器提供插座,等着客户端的插头插进来。一旦插入完成&#x…

AT_arc172_d [ARC172D] Distance Ranking

比较牛的构造题,AT 出题人还是太有水平了。 首先我们想如果两两距离相同该怎么构造。 这一步比较简单,直接每一维都分配给一个坐标一个 \(1\) 即可。 然后我们改成小于号,考虑一些微小的扰动,将上述 \(1\) 改成 \(…

网站建设方向课程苏州网站建设选苏州梦易行

文章目录 前言一、SpringMvc1、简介2、核心组件和调用流程2.1 涉及组件的理解 3、小案例快速体验3.1场景需求3.1.1 导入依赖3.1.2 controller声明3.1.3 核心配置类3.1.4 环境搭建3.1.6 配置tomcat3.1.7 测试 二、SpringMvc 接收参数1.路径设置注解2、param接收参数四种类型2.1 …

江苏省建设工程质量监督站网站优设网专利

1.概述 本文将重点介绍通过Spring设置Hibernate 3 –我们将研究如何同时使用XML和Java配置通过Hibernate 3和MySQL设置Spring 3。 2. Hibernate 3的Java Spring配置 使用Spring和Java配置来设置Hibernate 3很简单: import java.util.Properties; import javax.sql…

教做世界美食的网站wordpress 新建页面 超链接

一、介绍 相同点: eglCreatePbufferSurface 和 eglCreateWindowSurface 都是 OpenGL ES 中用于创建不同类型的EGL表面的函数,以便在OpenGL ES中进行渲染。 不同点: 选择使用哪种表面类型取决于你的需求。如果你只是需要在内存中进行离屏渲…

服务器在国外未备案网站asp网页制作教程

1.验证(Authentication) 确认通信对方身份的过程。 2.证书(Certificate) 一份数字签名声明,用于证明某个实体(个人、公司等)的身份和公钥。证书可以是自签名的,也可以是由证书颁发…

网站开发 实训 报告门户网站开发注意事项

来源:电子产品世界CPU(Centralprocessingunit)是现代计算机的核心部件,又称为“微处理器”。对于PC而言,CPU的规格与频率常常被用来作为衡量一台电脑性能强弱重要指标。Intelx86架构已经经历了二十多个年头,而x86架构的CPU对我们大…

微信公众号模板素材网站wordpress扫码付费可见插件

在业务项目的开发中,我们经常需要将 Java 对象进行转换,比如从将外部微服务得到的对象转换为本域的业务对象 domainobject,将 domainobject 转为数据持久层的 dataobject,将 domainobject 转换为 DTO 以便返回给外部调用方等。在转…

企业建网站方案怎么制作网站镜像

串口(RS - 232) 串行接口是将FPGA连接到PC的一种简单方法。我们只需要一个收发模块。 异步发射器 它通过序列化要传输的数据来创建一个信号“TxD”。 异步接收器 它从FPGA外部接收信号“RxD”,并对其进行“反序列化”,以便在FPGA内部轻松使用。 RS-232串行接口是如何工作…

Python爬虫实现大乐透历史数据抓取

前言 公司楼下恰好毗邻中国体育彩票中心,午间饭后,与同事们总会相约前往,各自投下两注希望,既是为中国的公益事业贡献一份力量,也怀揣着对瞬间改变命运的微妙幻想。对于中奖概率的理性认知,我们并不缺乏,但内心…

【读书笔记】《深入理解计算机系统(原书第三版)》第一章 计算机系统漫游

引言 计算机系统是由硬件和系统软件组成的,它们共同工作来运行应用程序。 1.1 信息就是 位 + 上下文 ASCII标准:用一个唯一的单字节大小的整数值来表示每个字符。大部分的现代计算机系统都使用 ASCII 标准来表示文本…

如何将PPT每一页批量导出为高清JPG图片?一文讲清处理流程

如何将PPT每一页批量导出为高清JPG图片?一文讲清处理流程pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consola…

实用指南:计算机视觉:基于YOLOv11 实例分割与OpenCV 在 Java 中的实现图像实例分割

实用指南:计算机视觉:基于YOLOv11 实例分割与OpenCV 在 Java 中的实现图像实例分割pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; f…

哪个公司做网站最好深圳网站建设拟解决问题

在IC设计项目的验证过程中,功能测试(通过使用测试平台)有助于定位设计错误或漏洞。这个验证过程有三个阶段:构建和启动测试平台、验证基本测试用例以及验证边界情况。 在前两个阶段,漏洞很容易被检测到,因…

百度网站地图北京专业网站制作公司

一、Spring Cloud(Base工程构建) 1.1 Spring Cloud 简述 1.1.1 Spring Cloud 版本推荐 在讲解 Spring Cloud 之前,首先推荐一下各个依赖的版本,以免出现版本错误 版本推荐 必须根据以上版本,否则可能会出现一些不…

品牌创意型网站建设山东省城乡建设厅官网

目录 1.背景介绍1.1. 项目背景1.2. 项目难点1.3. 项目环境 2. flask后端开发实现的功能3. flask部署和前后端对接3.1. flask运行配置和服务器部署3.2. flask前后端传参 4. 后端测试工具4.1. 工具介绍4.2. 工具使用 后记 1.背景介绍 1.1. 项目背景 就是前几个月临时接手了一个…

html网站开发心得体会大丰市市城乡建设局网站

来源:中国电子信息产业发展研究院10月19日,由北京市人民政府、工业和信息化部主办,工业和信息化部装备工业发展中心、中国电子信息产业发展研究院(以下简称“赛迪研究院”)等机构共同承办的“世界智能网联汽车大会”进…

互联网app下载手机优化加速有什么用

dubbo自定义了很多xml标签,例如,那么这些自定义标签是怎么与spring结合起来的呢?我们先看一个简单的例子。一 编写模型类1 packagecom.hulk.testdubbo.model;23 public classHero {4 privateString name;5 private intage;67 publicString ge…