珠海微网站制作网页设计实训报告总结与收获
珠海微网站制作,网页设计实训报告总结与收获,做优惠券网站要多少钱,wordpress做商城安全吗摘要#xff1a; 知识图谱#xff0c;是结构化的语义知识库#xff0c;用于迅速描述物理世界中的概念及其相互关系#xff0c;通过将数据粒度从document级别降到data级别#xff0c;聚合大量知识#xff0c;从而实现知识的快速响应和推理。文/阿里安全 染青“The world i…摘要 知识图谱是结构化的语义知识库用于迅速描述物理世界中的概念及其相互关系通过将数据粒度从document级别降到data级别聚合大量知识从而实现知识的快速响应和推理。
文/阿里安全 染青“The world is not made of strings , but is made of things.” ——辛格博士from Google.知识图谱是结构化的语义知识库用于迅速描述物理世界中的概念及其相互关系通过将数据粒度从document级别降到data级别聚合大量知识从而实现知识的快速响应和推理。 知识图谱搜索热度当下知识图谱已在工业领域得到了广泛应用如搜索领域的Google搜索、百度搜索社交领域的领英经济图谱企业信息领域的天眼查企业图谱等。知识图谱的构建技术主要有自顶向下和自底向上两种。其中自顶向下构建是指借助百科类网站等结构化数据源从高质量数据中提取本体和模式信息加入到知识库里。而自底向上构建则是借助一定的技术手段从公开采集的数据中提取出资源模式选择其中置信度较高的信息加入到知识库中。在知识图谱技术发展初期多数参与企业和科研机构主要采用自顶向下的方式构建基础知识库如Freebase。随着自动知识抽取与加工技术的不断成熟当前的知识图谱大多采用自底向上的方式构建如Google的Knowledge Vault和微软的Satori知识库。在本文中笔者主要想分享一下自底向上构建知识图谱的全过程抛砖引玉欢迎大家交流。1-定义俗话说“看人先看脸。”在我们深入了解知识图谱之前让我们先来看一下它长什么样子!如图所示你可以看到如果两个节点之间存在关系他们就会被一条无向边连接在一起那么这个节点我们就称为实体Entity它们之间的这条边我们就称为关系Relationship。知识图谱的基本单位便是“实体Entity-关系Relationship-实体Entity”构成的三元组这也是知识图谱的核心。2-数据类型和存储方式知识图谱的原始数据类型一般来说有三类也是互联网上的三类原始数据结构化数据Structed Data如关系数据库非结构化数据如图片、音频、视频半结构化数据 如XML、JSON、百科 如何存储上面这三类数据类型呢一般有两种选择一个是通过RDF资源描述框架这样的规范存储格式来进行存储比较常用的有Jena等。 还有一种方法就是使用图数据库来进行存储常用的有Neo4j等。 那你可能会问我了你不就是一大堆的三元组吗用关系数据库来存储不也一样嘛。是的用关系数据库来存储尤其是存储简单的知识图谱从技术上来说是完全没问题的。但需要注意的是一旦知识图谱变复杂图数据库在关联查询的效率上会比传统的关系数据存储方式有显著的提高。当我们涉及到2,3度的关联查询基于知识图谱的查询效率会高出几千倍甚至几百万倍。除此之外基于图的存储在设计上会非常灵活一般只需要局部的改动即可。因此如果你的数据量较大还是建议直接用图数据库来进行存储的。3-知识图谱的架构知识图谱的架构主要可以被分为逻辑架构技术架构3.1-逻辑架构在逻辑上我们通常将知识图谱划分为两个层次数据层和模式层。模式层在数据层之上是知识图谱的核心存储经过提炼的知识通常通过本体库来管理这一层这一层本体库可以理解为面向对象里的“类”这样一个概念本体库就储存着知识图谱的类。数据层存储真实的数据。如果还是有点模糊可以看看这个例子——模式层实体-关系-实体实体-属性-性值数据层比尔盖茨-妻子-梅琳达·盖茨比尔盖茨-总裁-微软3.2-技术架构知识图谱的整体架构如图所示其中虚线框内的部分为知识图谱的构建过程同时也是知识图谱更新的过程。别紧张让我们顺着这张图来理一下思路。首先我们有一大堆的数据这些数据可能是结构化的、非结构化的以及半结构化的然后我们基于这些数据来构建知识图谱这一步主要是通过一系列自动化或半自动化的技术手段来从原始数据中提取出知识要素即一堆实体关系并将其存入我们的知识库的模式层和数据层。构建知识图谱是一个迭代更新的过程根据知识获取的逻辑每一轮迭代包含三个阶段——信息抽取从各种类型的数据源中提取出实体、属性以及实体间的相互关系在此基础上形成本体化的知识表达知识融合在获得新知识之后需要对其进行整合以消除矛盾和歧义比如某些实体可能有多种表达某个特定称谓也许对应于多个不同的实体等知识加工对于经过融合的新知识需要经过质量评估之后部分需要人工参与甄别才能将合格的部分加入到知识库中以确保知识库的质量。4-构建技术前面我们已经说过了知识图谱有自顶向下和自底向上两种构建方式这里提到的构建技术主要是自底向上的构建技术。 如前所述构建知识图谱是一个迭代更新的过程根据知识获取的逻辑每一轮迭代包含三个阶段——信息抽取从各种类型的数据源中提取出实体、属性以及实体间的相互关系在此基础上形成本体化的知识表达知识融合在获得新知识之后需要对其进行整合以消除矛盾和歧义比如某些实体可能有多种表达某个特定称谓也许对应于多个不同的实体等知识加工对于经过融合的新知识需要经过质量评估之后部分需要人工参与甄别才能将合格的部分加入到知识库中以确保知识库的质量。见下图—— 下面我们依次来对每一个步骤进行介绍。长文预警_(:з)∠)_4.1-信息抽取信息抽取infromation extraction是知识图谱构建的第1步其中的关键问题是——如何从异构数据源中自动抽取信息得到候选指示单元。信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。 涉及的关键技术包括实体抽取、关系抽取和属性抽取。4.1.1-实体抽取实体抽取也称为命名实体识别named entity recognitionNER是指从文本数据集中自动识别出命名实体。 比如在下图中通过实体抽取我们可以从其中抽取出三个实体——“steve Balmer”, Bill Gates,和Microsoft 实体抽取的研究历史主要是从面向单一领域进行实体抽取逐步跨步到面向开放域open domain的实体抽取。4.1.2-关系抽取文本语料经过实体抽取之后得到的是一系列离散的命名实体为了得到语义信息还需要从相关语料中提取出实体之间的关联关系通过关系将实体联系起来才能够形成网状的知识结构。这就是关系抽取需要做的事如下图所示。 研究历史人工构造语法和语义规则模式匹配统计机器学习方法基于特征向量或核函数的有监督学习方法研究重点转向半监督和无监督开始研究面向开放域的信息抽取方法将面向开放域的信息抽取方法和面向封闭领域的传统方法结合4.1.3-属性抽取属性抽取的目标是从不同信息源中采集特定实体的属性信息如针对某个公众人物可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。研究历史将实体的属性视作实体与属性值之间的一种名词性关系将属性抽取任务转化为关系抽取任务。基于规则和启发式算法抽取结构化数据基于百科类网站的半结构化数据通过自动抽取生成训练语料用于训练实体属性标注模型然后将其应用于对非结构化数据的实体属性抽取。采用数据挖掘的方法直接从文本中挖掘实体属性和属性值之间的关系模式据此实现对属性名和属性值在文本中的定位。4.2-知识融合通过信息抽取我们就从原始的非结构化和半结构化数据中获取到了实体、关系以及实体的属性信息。 如果我们将接下来的过程比喻成拼图的话那么这些信息就是拼图碎片散乱无章甚至还有从其他拼图里跑来的碎片、本身就是用来干扰我们拼图的错误碎片。也就是说——拼图碎片信息之间的关系是扁平化的缺乏层次性和逻辑性拼图知识中还存在大量冗杂和错误的拼图碎片信息 那么如何解决这一问题就是在知识融合这一步里我们需要做的了。知识融合包括2部分内容实体链接知识合并4.2.1-实体链接实体链接entity linking是指对于从文本中抽取得到的实体对象将其链接到知识库中对应的正确实体对象的操作。 其基本思想是首先根据给定的实体指称项从知识库中选出一组候选实体对象然后通过相似度计算将指称项链接到正确的实体对象。研究历史仅关注如何将从文本中抽取到的实体链接到知识库中忽视了位于同一文档的实体间存在的语义联系。开始关注利用实体的共现关系同时将多个实体链接到知识库中。即集成实体链接collective entity linking实体链接的流程从文本中通过实体抽取得到实体指称项进行实体消歧和共指消解判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义在确认知识库中对应的正确实体对象之后将该实体指称项链接到知识库中对应实体。实体消歧是专门用于解决同名实体产生歧义问题的技术通过实体消歧就可以根据当前的语境准确建立实体链接实体消歧主要采用聚类法。其实也可以看做基于上下文的分类问题类似于词性消歧和词义消歧。共指消解技术主要用于解决多个指称对应同一实体对象的问题。在一次会话中多个指称可能指向的是同一实体对象。利用共指消解技术可以将这些指称项关联合并到正确的实体对象由于该问题在信息检索和自然语言处理等领域具有特殊的重要性吸引了大量的研究努力。共指消解还有一些其他的名字比如对象对齐、实体匹配和实体同义。4.2.2-知识合并在前面的实体链接中我们已经将实体链接到知识库中对应的正确实体对象那里去了但需要注意的是实体链接链接的是我们从半结构化数据和非结构化数据那里通过信息抽取提取出来的数据。 那么除了半结构化数据和非结构化数据以外我们还有个更方便的数据来源——结构化数据如外部知识库和关系数据库。对于这部分结构化数据的处理就是我们知识合并的内容啦。一般来说知识合并主要分为两种——合并外部知识库主要处理数据层和模式层的冲突合并关系数据库有RDB2RDF等方法4.3-知识加工经过刚才那一系列步骤我们终于走到了知识加工这一步了感觉大家可能已经有点晕眩那么让我们再来看一下知识图谱的这张架构图。 在前面我们已经通过信息抽取从原始语料中提取出了实体、关系与属性等知识要素并且经过知识融合消除实体指称项与实体对象之间的歧义得到一系列基本的事实表达。然而事实本身并不等于知识。要想最终获得结构化网络化的知识体系还需要经历知识加工的过程。知识加工主要包括3方面内容本体构建、知识推理和质量评估。4.3.1-本体构建本体ontology是指工人的概念集合、概念框架如“人”、“事”、“物”等。本体可以采用人工编辑的方式手动构建借助本体编辑软件也可以以数据驱动的自动化方式构建本体。因为人工方式工作量巨大且很难找到符合要求的专家因此当前主流的全局本体库产品都是从一些面向特定领域的现有本体库出发采用自动构建技术逐步扩展得到的。自动化本体构建过程包含三个阶段——实体并列关系相似度计算实体上下位关系抽取本体的生成比如对下面这个例子当知识图谱刚得到“阿里巴巴”、“腾讯”、“手机”这三个实体的时候可能会认为它们三个之间并没有什么差别但当它去计算三个实体之间的相似度后就会发现阿里巴巴和腾讯之间可能更相似和手机差别更大一些。这就是第一步的作用但这样下来知识图谱实际上还是没有一个上下层的概念它还是不知道阿里巴巴和手机根本就不隶属于一个类型无法比较。因此我们在实体上下位关系抽取这一步就需要去完成这样的工作从而生成第三步的本体。当三步结束后这个知识图谱可能就会明白“阿里巴巴和腾讯其实都是公司这样一个实体下的细分实体。它们和手机并不是一类。”4.3.2-知识推理在我们完成了本体构建这一步之后一个知识图谱的雏形便已经搭建好了。但可能在这个时候知识图谱之间大多数关系都是残缺的缺失值非常严重那么这个时候我们就可以使用知识推理技术去完成进一步的知识发现。 比如在下面这个例子里——我们可以发现——如果A是B的配偶B是C的主席C坐落于D那么我们就可以认为A生活在D这个城市。根据这一条规则我们可以去挖掘一下在图里是不是还有其他的path满足这个条件那么我们就可以将AD两个关联起来。除此之外我们还可以去思考串联里有一环是B是C的主席那么B是C的CEO、B是C的COO是不是也可以作为这个推理策略的一环呢当然知识推理的对象也并不局限于实体间的关系也可以是实体的属性值本体的概念层次关系等。 比如——推理属性值已知某实体的生日属性可以通过推理得到该实体的年龄属性推理概念已知(老虎科猫科)和猫科目食肉目可以推出老虎目食肉目这一块的算法主要可以分为3大类基于逻辑的推理、基于图的推理和基于深度学习的推理 4.3.3-质量评估质量评估也是知识库构建技术的重要组成部分这一部分存在的意义在于可以对知识的可信度进行量化通过舍弃置信度较低的知识来保障知识库的质量。好啦在质量评估之后你是不是想说妈耶知识图谱终于构建完毕了。终于可以松一口气了。emmmm好吧实不相瞒知识图谱这个宝宝目前虽然我们构建成功了。 但是你家宝宝不吃饭的啊你家宝宝不学习的啊所以让我们冷静一下乖乖进入知识更新这一步……4.4-知识更新从逻辑上看知识库的更新包括概念层的更新和数据层的更新概念层的更新是指新增数据后获得了新的概念需要自动将新的概念添加到知识库的概念层中。数据层的更新主要是新增或更新实体、关系、属性值对数据层进行更新需要考虑数据源的可靠性、数据的一致性是否存在矛盾或冗杂等问题等可靠数据源并选择在各数据源中出现频率高的事实和属性加入知识库。知识图谱的内容更新有两种方式全面更新指以更新后的全部数据为输入从零开始构建知识图谱。这种方法比较简单但资源消耗大而且需要耗费大量人力资源进行系统维护增量更新以当前新增数据为输入向现有知识图谱中添加新增知识。这种方式资源消耗小但目前仍需要大量人工干预定义规则等因此实施起来十分困难。5-知识图谱的应用好了终于终于知识图谱的构建方式我们就此结束了 为了让大家不立刻弃疗让我们来看看知识图谱能做到什么以及目前已经做到了什么~智能搜索——也是知识图谱最成熟的一个场景自动给出搜索结果和相关人物构建人物关系图查看更多维度的数据反欺诈这主要有两部分原因一个是反欺诈的数据来源多样结构化和非结构化二是不少欺诈案件会涉及到复杂的关系网络不一致性验证类似交叉验证——关系推理异常分析运算量大一般离线– 静态分析给定一个图形结构和某个时间点从中去发现一些异常点比如有异常的子图。– 动态分析分析其结构随时间变化的趋势。假设短时间内知识图谱结构的变化不会太大如果它的变化很大就说明可能存在异常需要进一步的关注。会涉及到时序分析技术和图相似性计算技术。失联客户管理 挖掘出更多的新联系人提高催收的成功率。……事实上知识图谱的应用远不止于此。在我看来这个世界就是一张巨大的知识图谱是无数个实体关系对这两年工业界对图数据库、知识图谱的巨大需求也同样反映出了这一点。 就像这篇文章开头说的那句一样——“The world is not made of strings , but is made of things.” ——辛格博士from Google.原文链接本文为云栖社区原创内容未经允许不得转载。
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/87936.shtml
如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!