中山建设监理有限公司 网站网站首页风格

pingmian/2025/10/9 3:17:03/文章来源:
中山建设监理有限公司 网站,网站首页风格,水资源论证网站建设,惠州网络推广公司哪家好分享嘉宾#xff1a;李向林 OPPO编辑整理#xff1a;吴祺尧 加州大学圣地亚哥分校出品平台#xff1a;DataFunTalk导读#xff1a;OPPO知识图谱是OPPO数智工程系统小布助手团队主导、多团队协作建设的自研大规模通用知识图谱#xff0c;目前已达到数亿实体和数十亿三元组的…分享嘉宾李向林 OPPO编辑整理吴祺尧 加州大学圣地亚哥分校出品平台DataFunTalk导读OPPO知识图谱是OPPO数智工程系统小布助手团队主导、多团队协作建设的自研大规模通用知识图谱目前已达到数亿实体和数十亿三元组的规模主要落地在小布助手知识问答、电商搜索等场景。本文主要分享OPPO知识图谱建设过程中算法相关的技术挑战和对应的解决方案主要包括实体分类、实体对齐、信息抽取、实体链接和图谱问答query解析等相关算法内容。全文围绕下面四点展开背景OPPO知识图谱知识图谱在小布助手中的应用总结与展望01背景首先和大家分享下小布助手和知识图谱的背景。1. 背景——小布助手 小布助手是OPPO旗下有趣贴心、无处不在的AI助手搭载在OPPO手机、OnePlus、Realme以及如智能手表等IoT智能硬件上。它可以为用户提供系统应用、生活服务、影音娱乐、信息查询、智能聊天等服务进而挖掘潜在的用户价值、营销价值和技术价值。2. 背景——oppo知识图谱在2020年年底OPPO开始着手构建自己的知识图谱。经过一年左右的时间OPPO已经构建了数亿实体和数十亿关系的高质量通用知识图谱。目前OPPO知识图谱支持了每天线上数百万次的小布问答请求。进一步OPPO正将通用知识图谱逐渐扩展到商品图谱、健康图谱、风控图谱等多个垂类。02 OPPO知识图谱接下来为大家介绍OPPO知识图谱的整体架构。如上图所示它由三大部分组成。最底层是通用的数据处理平台和图数据库相关框架。我们具体选取NebulaGraph来存储图数据。中间层包含数据获取、图谱构建和图谱管理模块。最顶层涵盖了OPPO图谱各种应用场景包括智能问答、搜索推荐、内容理解、安全风控、智慧健康等。下面介绍应用知识图谱的三个核心算法实体分类、实体对齐和信息抽取。实体分类根据图谱预定义的schema对实体进行归类进而可以使我们对实体进行属性、关系的关联。同时实体分类可以对下游的实体对齐、实体链接和线上的智能问答业务等提供重要的特征。目前我们采用规则预训练语言模型文本分类的pipeline方案。在第一阶段我们利用如百科中对实体的描述使用预定义的规则处理大量半监督的伪标签数据。随后这些数据会交给标注同事进行校验整理出有标签的训练集结合预训练语言模型训练一个多标签的文本分类模型。值得一提的是我们为业界提供了一个大规模实体分类数据集组织了2021CCKS通用百科知识图谱竞赛吸引了数百只队伍参赛。实体对齐任务是知识图谱构建中比较关键的环节。在互联网的开源数据中同一实体在多个来源下存在相似或者相同的信息若将这部分冗余信息全部包含在知识图谱中那么在下游使用知识图谱进行信息检索时会带来歧义。所以我们对多源相同的实体进行信息整合减少信息冗余。具体地由于知识图谱中的实体规模达到了上亿的量级考虑到效率问题我们提出了DedupeBERT语义分类的两阶段方案。在第一阶段我们采用并行处理的方式将名字、别名相同的实体进行分组输入Dedupe数据去重工具生成第一阶段实体对齐结果。我们要求这一阶段的结果的准确率很高。在第二阶段我们会训练一个实体相关性匹配模型其输入是一对候选实体旨在调整、补充第一阶段的对齐结果。在实体分类与对齐后由于数据源存在信息缺失图谱中存在一些实体缺失部分关键属性。我们将缺失属性的实体分成两类使用信息抽取的方法对它们进行属性补全。第一类是常见的实体与属性如国家的首都、人物的年龄和性别等。我们使用百度CASREL模型以及业界常用的开源数据集训练一个关系抽取模型。模型的结构可以看作一个多标签的指针网络每个标签对应一个关系类型。CASREL首先抽取句子中的主实体再将主实体的embedding输入指针网络预测每一个关系下句子中的客体起始位置和终止位置最后通过设定的阈值来判定SPO三元组是否可信。第二类是长尾属性它们在开源数据集上标注较少。我们利用阅读理解MRC模型抽取长尾属性。如我们想要抽取“某奥特曼的人间体”这一属性我们就将“某奥特曼的人间体是谁”这一问题作为query检索文本结果使用阅读理解模型判断文本中是否包含“人间体”的客体。总结来说在构建知识图谱的过程中我们应用了实体分类、实体对齐与信息抽取任务希望通过它们来提升知识图谱的质量和丰富程度。后续建设过程中我们希望在现有的框架下将实体分类基于迁移学习扩展到商品分类、游戏分类等垂域场景。此外目前的实体对齐任务还较为基础我们希望在未来结合多模态、节点表示学习等多策略对齐方案。最后对于信息抽取任务我们希望借助大规模预训练语言模型基于少量标记样本甚至零标记样本来抽取实体关系。我们还考虑应用实体抽取算法使得它可以落地于小布助手的业务场景中。03知识图谱在小布助手中的应用第三部分重点介绍知识图谱在小布助手业务场景中的应用。小布助手按照对话领域可以划分为三大类闲聊、任务对话和知识问答。其中闲聊类使用检索式、生成式算法任务对话利用帧语义的算法对query进行结构化解析知识问答进一步细分为两部分基于知识图谱的KBQA的结构化问答和基于阅读理解与向量检索的非结构化问答。首先介绍知识问答。对于结构化问题我们采用KBQA来解决对于非结构化问题我们采用DeepQA阅读理解的框架来处理。对于结构化问题在小布助手的应用中有四大类query基础链式查询如单跳、两跳、甚至更多跳的问题多变量约束查询实体关系查询比较推理查询我们针对结构化问题设计了一套基于KBQA的算法框架。首先在接收到线上用户的query输入后我们会先对其进行领域识别以及意图分类。若query是可以使用KBQA解决那么我们会对query进行实体识别、query解析和答案生成。这三个主要步骤又可以通过在线和离线两方面进行进一步归类。比如离线KBQA会进行别名挖掘、新词发现、属性归一、模板挖掘最终更新知识图谱和图数据库。在线KBQA会进行实体抽取、实体链接、属性识别、约束挂载、模板匹配和长尾模板的语义匹配最后在图数据中进行知识查询或者根据查询结果进行推理计算。小布助手的输入以语音为主所以小布助手场景下实体往往存在别名以及语音识别错误的特点。在语音输入时用户往往不会说出人物的完整名字而是采用别名。其次语音识别的错误率相对较高导致输入相较于网页上的query输入差异较大。针对别名问题最基础的解决方案是基于知识图谱的实体别名建设一个映射词表其次针对复合实体我们会利用图谱中的上位词挖掘实体复合词。针对语音识别错误问题我们会采用内部大量搜索点击日志利用点击网页中title包含的标准名和对应的query做匹配。匹配时的输入特征有两类偏旁部首的特征倩雅集和晴雅集以及拼音特征分马奥特曼和风马奥特曼。我们将候选标准名的特征和query的特征进行聚类最终选取距离最近的标准名。值得一提的是在生成实体映射词表前我们还会进行额外的人工校验。在对用户query进行实体识别之后我们需要进行实体链接任务。以“李白哪个技能最厉害”这个query为例。“李白”这一实体会在知识图谱中对应着多个不同类型的实体如游戏角色、唐代诗人、李荣浩歌曲、撒贝宁妻子等。此时我们需要结合query的语义来选取真正的实体。实体链接会经历三个步骤。首先我们采用BiLSTMCRF进行实体识别之后我们会在知识图谱中召回候选实体最后我们基于实体消歧模型对query和候选实体的匹配度进行打分选择最匹配的实体。若所有候选实体的匹配度均低于预设的阈值我们则会输出一个特殊的空类别。上图呈现的方案是我们团队在参加百度千言实体链接比赛中提出的。它采用了多任务训练框架语义匹配实体类型分类引入了对抗学习策略融入了统计类特征如实体的热度、实体的丰富度等并加入了多模型集成的方法。最终我们在千言实体链接比赛中斩获第二名。具体地我们将query与实体的相似度匹配任务建模为一个二分类任务将实体类型分类任务建模为一个多分类任务。经过对比实验我们证明了多任务学习、对抗学习的思路对实体消歧模型的效果有一定提升。需要指出的是在实体链接模型真正上线使用的时候我们会选取一个相对较小规模的模型。对query进行实体链接后我们需要对query基于模板进行属性抽取。业界主要有两种方案基于语义解析semantic parsing类的方法和基于信息检索information retrieval类的方法。OPPO主要选取语义解析类的方案并且在解析失败的长尾属性采用语义匹配的方法进行兜底。在语义解析类的方案中首先我们需要挖掘用于语义解析的常见模板。我们采用远程监督模板挖掘的方式利用互联网海量的问答数据将这些语料与我们的知识图谱进行匹配得到问答库中实体的属性最后得到问答语料中常见的query模板。例如“q:刘德华多少岁了 ans:59岁”这个问答经过图谱属性检索得到query实际上在询问某个人的年龄属性。类似的我们可以得到询问某个人的身高属性、年龄属性、出生地属性的query据此生成一系列query模板。基于挖掘的模板我们可以训练一个语义匹配分类模型其输入是原始query和一个候选query属性。此外在训练过程中我们会将实体mask掉旨在使模型学习query在实体信息之外的语义与实体属性的相关性。在模型训练完毕后我们使用小布线上query日志先对它们进行实体抽取然后将query以及图谱中query实体所对应的所有候选属性输入模型进行语义匹配的预测任务得到一部分较高置信度的候选模板。输出模板会交由标注人员进行校验最终得到的模板会加入query解析的算法模块中。接下来以一个具体的例子来解释我们如何使用模板来解析在线的KBQA问题。比如用户输入query为“印度的首都有多大”即用户的真实意图是询问新德里的面积。首先我们会对query做实体识别将“印度”映射至图谱中的“国家”利用模板将“首都”映射至“国家的首都”或者“王朝的首都”同理将“有多大”归一化至“人的年龄”、“地区的面积”、“公司的面积”、“行星的体积”等属性。此时还不能完全确定对应的属性所以我们会将所有的候选属性进行排列组合结合剪枝的方法选择最有可能的模板生成中间表示式。在上面的例子中最佳模板是“国家首都的面积”。这个query实际上是个两跳的问题我们会利用单条模板将其中一部分抽象为一个子查询如“国家的首都”。具体地我们会将子查询与剩余的查询模板拼接在一起生成一个复合查询。在执行知识图谱的查询的时候我们会首先执行子查询并将其替换为查询得到的实体最后按照生成的query继续在图谱中搜索最终的结果。虽然我们离线挖掘了大量的归一化模板但是这一方法依然对一些极端情况效果不佳。由于用户输入的不确定性模板存在长尾query欠召回的问题。考虑到线上效率问题我们很难完全将query与所有模板进行模型的语义匹配打分。基于上述问题我们提出了类似于双塔模型匹配的方案将模板通过BERT模型生成对应的模板向量建立模板向量索引。当无法得到合适的模板进行query解析时输入query会经过BERT模型得到query向量随后在模板向量索引中召回一部分相似模板向量最后通过人工设定的阈值判断是否接受候选模板。在实际业务中使用这一方法进行应答的占比较小。用户可能会提出多约束问题例如“重庆的男演员有哪些”。我们会利用问句分类模块判断出query属于多约束查询随后将query中包含的所有约束识别出来。在使用多约束查询时我们不会在图数据库中执行查询操作而是选用ES进行多条件查询这是因为图数据库检索耗时很大。最后我们将ES查询输出进行热度排序输出相对合理的结果。类似地对于比较推理问题我们首先利用问句分类模块识别出query属于比较推理查询随后在图谱中进行多实体查询根据比较推理中需要查询的属性判断两个实体对应的属性是否可比。若多实体属性是可比的我们会执行推理计算最终输出推理查询的结果。接下来简单介绍一下OPPO对于非结构化问答的解决方案。离线情况下我们选取了业界流行的海量网页数据MRC模型进行答案抽取的框架。首先利用搜索query中包含的大量URL和点击日志获取query对应的网页文本数据随后将query与网页文本数据输入MRC模型得到query在文本中对应的答案之后答案会经过一个离线训练好的“答非所问”判别模型筛选出那些与query真正相关的答案最终离线构建问题-答案的数据库。此外基于构建的QA库我们会使用双塔模型构建QA数据库的向量索引。在线查询时query首先会经过意图识别和文体类型识别的模块。在OPPO业务设定中使用KBQA的优先级大于使用非结构化问答框架的优先级。如果KBQA无法针对输入query返回结果那么query会被输入至非结构化问题的向量检索框架中。Query会被双塔模型进行语义向量编码随后在索引库中进行向量召回得到topK候选QA。由于向量召回的方案会丢失query与答案的交互信息所以在得到候选QA后query向量与候选向量会经过一个精排模型增强语义交互得到最终的精排排序打分。根据预设的阈值我们可以选择接受或拒绝候选QA结果。我们针对MRC模型进行了一些优化。首先我们选择rikinet作为MRC模型。它的特点是对网页中长文本的数据处理效果最优其潜在的原因是rikinet会对输入文本进行段落划分在语言模型attention机制中不同段落之间没有信息交互避免不同段落之间的噪声信息影响答案信息。04总结与展望 最后对今天分享的内容做一个总结和展望。虽然OPPO着手构建知识图谱的时间相对较晚但是在构建过程中积累了大量经验。首先图谱构建算法是建设高质量知识图谱的关键环节我们会优先保证算法的准确率对召回率的要求相对较低。其次针对知识问答算法在离线时我们会训练用于模板挖掘、阅读理解的大模型保证离线挖掘的数据质量在线服务时我们会选取在线模板小模型的方案保证服务效率。在未来我们可能会尝试以下几类优化方案常识推理图谱常识问答多模态图谱多模态问答用户图谱个性化推荐知识图谱大规模预训练语言模型低资源条件的信息抽取05QAQ通用百科图谱的实体量级是多少有什么办法可以降低实体对齐的时间复杂度AOPPO内部的知识图谱的实体量级为约两亿关系数为十几亿的量级。由于图谱的规模较大在尝试降低实体对齐的时间复杂度时我们首先会对候选实体做类别划分例如实体类型是人物则在人物类别的条件下做实体对齐这相当于借鉴了分而治之的思想降低一部分计算复杂度。随后我们采用两阶段的实体对齐算法。第一阶段不会涉及深度学习模型而是将实体进行粗粒度的分组如别名相同的实体选用Dedupe和Spark框架执行并行化实体对齐。Q知识问答中如何判断query的对话领域A小布助手在内部有一套复杂的领域分类和意图识别系统。例如在闲聊领域我们会标注大量的闲聊语料。随后我们会训练BERT模型对语料进行分类。Q如何辨别语音识别错误与新词的情形A在纠正语音识别错误时我们使用搜索点击日志对应的网页title与query一起输入模型进行实体识别。这是因为我们认为网页title在大多数情况下都会包含正确的实体名。随后我们考虑了偏旁部首的特征和拼音特征当query特征和候选实体特征的相似度达到了预设的阈值后那么我们基本上可以认为这是一个语音识别错误而不是一个新词。Q实体消歧模型中会不会加入一些手工特征A我们会加入一些手工特征例如实体的热度特征、实体在训练数据中真正被标注为正例的比例、实体属性的个数等统计类特征。Qrikinet对网页长文本数据效果更加的原因是什么ARikinet设计了一种特殊的attention机制。首先它将长文本按照段落进行切分。一般情况下短答案只会出现在一个段落中。Rikinet的attention机制使得段落之间不存在注意力交互这样就可以让不存在答案的段落包含的无关信息无法影响包含答案的段落语义信息。只不过这只是实验中的得到的结论没有理论支撑。Qquery在线模板匹配中查询路径解析的剪枝是如何实现的A例如“印度的首都有多大”这一例子我们会使用到实体分类辅助剪枝任务。首先“印度”是一个国家虽然“首都”可以映射到“国家的首都”或者“王朝的首都”但由于前面的实体被识别为“国家”那么“王朝的首都”的排序就相对靠后。总的来说我们会根据识别出的实体类型和属性之间的关系进行剪枝。如果属性类型不存在冲突无法直接进行剪枝操作那么我们会对候选模板进行热度排序即若一个模板在训练集出现的频次更高那么我们优先考虑这一模板。Q请问OPPO如何应对方言的语音输入AOPPO目前主要支持粤语方言输入。这一部分的工作是前端ASR负责的所以方言会在ASR模块后就转换为普通话文本输入了。分享嘉宾OpenKGOpenKG中文开放知识图谱旨在推动以中文为核心的知识图谱数据的开放、互联及众包并促进知识图谱算法、工具及平台的开源开放。点击阅读原文进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/90276.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

来年做那个网站能致富广州天河区核酸检测点

神经网络的基本工作原理 一、总结 一句话总结:先给一个初始值,然后依赖正确值(真实值)进行修复模型(训练模型),直到模型和真实值的误差可接受 初始值 真实值 修复模型 1、神经网络由基本的神经元…

北京城乡建设网站wordpress默认页面设置方法

一.推荐系统 1.1 推荐系统是大数据在互联网领域的典型应用,它可以通过分析用户的历史记录来了解用户的喜好,从而主动的为用户推荐其感兴趣的信息,满足用户的个性化推荐需求. 1.2 推荐系统是自动联系用户和物品的一种工具&#x…

自做的网站如何发布威海千淼网站建设

rhel6.4 yum本地yum源配置 在安装rpm包时,总是会碰到关联的包,在安装过程中带来很多麻烦,配置yum源,自关联包安装,简单省事。配置步骤:1:mount -o loop 挂载镜像盘2:编辑rhel…

怎么修改网站的域名哈尔滨网站建设科技公司

在我们建立一个学习算法时,或者说训练一个模型时,我们总是希望最大化某一个给定的评价指标(比如说准确度Acc),但算法在学习过程中又会尝试优化某一个损失函数(比如说均方差MSE或者交叉熵Cross-entropy&…

珠海网站建设 旭洁免费刷推广链接的软件

[html] iframe如何自动调整高度? 未跨域时,在iframe中利用他的父窗口对象将本页面的滚动高度设置给iframe的height 跨域时,在iframe中将自己的的滚动高设置在本页面内的一个隐藏于父页面不跨域的iframe的hash值, 在隐藏的iframe中…

之梦英语版网站怎么做泰安网站建设运营费用

在实际应用中,我们通常无须返回表中的全部数据,大多数情况下只需检索满足特定条件的记录。例如,查找某个部门中的员工或者当前用户未完成的订单。 本文比较五种主流数据库数据过滤功能的实现和差异,包括 MySQL、Oracle、SQL Serv…

营销型企业网站建设教案网页特效代码大全

点击蓝字关注我们No.1函数分值题型解析1题型解析2tips:为了帮助同学们更好的通过高数期末考试,不挂科,我们最近正在加紧制作《高等数学》上册的期末复习冲刺课程,包含讲解视频和课程讲义。课程即将上线,敬请期待......…

个人网站开发的意义微信公众号分销功能

横道图一般都是用Project或者表格做的,下面就用斑马进度计划软件介绍一下怎么将横道图转化为双代号网络图使用工具:广联达斑马进度计划,点击进入官网下载使用Excel表格绘制的横道图,如何快速转化成网络图打开斑马进度计划软件&…

南宁做网站优化的公司自己怎样做优惠券网站

关于ubuntu自定义service服务时找不到/usr/lib/systemd/system目录的问题 问题 我们知道在 systemd 取代了 init 而成为广大 Linux 系统中 PID 为1的守护进程之后,Linux 中的服务(service)主要有 systemd 命令组来实现。在大多数发行版 Lin…

建设三轮摩托车官方网站青岛做优化网站哪家好

近几年来,企业对生产效率和管理水平的要求越来越高。为了提高生产效率,降低生产成本,许多企业开始引入先进的生产计划与调度系统(APS),实现生产过程的自动化、智能化管理。APS排产软件是一种能够根据企业的…

网站开发手机号能在页面上显示吗哈尔滨网页设计制作

在Linux系统中,性能调优是确保系统高效运行的重要任务。优化可以涵盖多个方面,包括文件系统、内存管理、网络和进程管理等。以下是一些常用的Linux性能调优策略: 1. 系统监控工具 在开始优化之前,首先需要监控系统的性能&#x…

查看网站国际联网备案号深圳做网站的

华为、新华三、锐捷常用命令总结 一、华为交换机基础配置命令二、H3C交换机的基本配置三、锐捷交换机基础命令配置 一、华为交换机基础配置命令 1、创建vlan&#xff1a; <Quidway> //用户视图&#xff0c;也就是在Quidway模式下运行命令。 <Quidway>system-view…

安徽富通建设集团有限公司网站网页制作与设计站点应该怎么建

具体实现参考&#xff1a; C# 动态加载DLL通过反射调用参数、方法、窗体_c#反射加载dll并传入参数-CSDN博客 C#进阶学习--反射(Reflection) - 知乎 走进C#反射机制 - 知乎 1.使用过程 //创建数据集 Assembly outerAsm Assembly.LoadFile("D:/your.dll");//获取…

手机网站开发公司做网站和微信公众平台如何定价

目录 一、sku静态页面的搭建 1.思路分析 2.代码实现 3.效果展示

西部中大建设集团有限公司网站怎样建设一个自己的网站微商

目录 前言 一、修改kv模型为data模型 1.添加MyUnorderedSet.h和MyUnorderedMap.h 2.修改HashNode 3.修改HashTable 二、普通迭代器 三、const迭代器 四、unordered_map重载operator[] 总结 前言 在上一篇文章中&#xff0c;我们手写了一份哈希表&am…

临沂做过网站的公司中国新闻社是国企还是央企

(1) 首先, 你要先有一个可以正常运行的 Linux 系统, 当然一般情况下我们是把这个系统放在虚拟机里的, 我所使用的是 ubuntu-18.04.2-live-server-amd64.iso(2) 在安装好并登陆上 Linux系统后, 就可以开始表演了1. 在命令行上输入  sudo apt-get install openssh-server  安…

葫芦岛市建设局网站上海市发布

目录 PromisePromise基本使用Promise可进行连续回调Promise回调可接受入参1.工作原理 async/await总结参考文档&#xff1a; 异步 let a 0setTimeout(() > {a 1}, 1000)console.log(a) // 0此时这个延迟就成为异步执行的了&#xff0c;a值还没有变1就被使用输出&#xff0…

做网站客户会问什么问题wordpress单页淘客源码

int size 0; void btreesize(BTNode* point)//节点数 {if (point NULL){return; }else{size;}btreesize(point->left);btreesize(point->right);} 求树的节点数&#xff0c;递归思路为首先创立一个全局变量避免其在函数内部成为局部变量&#xff0c;然后当走到空树的时…

公司的建设网站公司扬中网站建设效果

Element Plus框架快速上手详解 1、Element Plus1.1、安装 2、Button3、Link链接4、Layout布局5、Container布局容器6、Radio单选框6.1、单选框组6.2、事件 7、Checkbox多选框7.1、多选框组7.2、事件 8、Input输入框组件8.1、事件8.2、方法 9、Select选择器9.1、基础多选9.2、事…

做购物网站多少钱 知乎构建一个网站的步骤

进程通信 初步理解进程通信 所谓进程之间的通信&#xff0c;就是两个进程之间的 数据层面的交互。 我们之前说过&#xff0c;父子进程之间是有一些数据通信的&#xff0c;子进程可以看到一些父进程 允许 子进程访问的数据&#xff0c;比如 父进程的 环境变量&#xff0c;子…