做网站链接怎么弄自己怎么设计公园

pingmian/2026/1/21 16:28:25/文章来源:
做网站链接怎么弄,自己怎么设计公园,优化一个网站可以做多少关键词,东莞常平医院网站建设导读#xff1a;知识图谱的构建技术主要有自顶向下和自底向上两种。其中自顶向下构建是指借助百科类网站等结构化数据源#xff0c;从高质量数据中提取本体和模式信息#xff0c;加入到知识库里。而自底向上构建#xff0c;则是借助一定的技术手段#xff0c;从公开采集的… 导读知识图谱的构建技术主要有自顶向下和自底向上两种。其中自顶向下构建是指借助百科类网站等结构化数据源从高质量数据中提取本体和模式信息加入到知识库里。而自底向上构建则是借助一定的技术手段从公开采集的数据中提取出资源模式选择其中置信度较高的信息加入到知识库中。 知识图谱是结构化的语义知识库用于迅速描述物理世界中的概念及其相互关系通过将数据粒度从document级别降到data级别聚合大量知识从而实现知识的快速响应和推理。 当下知识图谱已在工业领域得到了广泛应用如搜索领域的Google搜索、百度搜索社交领域的领英经济图谱企业信息领域的天眼查企业图谱等。 在知识图谱技术发展初期多数参与企业和科研机构主要采用自顶向下的方式构建基础知识库如Freebase。随着自动知识抽取与加工技术的不断成熟当前的知识图谱大多采用自底向上的方式构建如Google的Knowledge Vault和微软的Satori知识库。 一、定义 俗话说“看人先看脸。”在我们深入了解知识图谱之前让我们先来看一下它长什么样子! 如图所示你可以看到如果两个节点之间存在关系他们就会被一条无向边连接在一起那么这个节点我们就称为实体Entity它们之间的这条边我们就称为关系Relationship。 知识图谱的基本单位便是“实体Entity-关系Relationship-实体Entity”构成的三元组这也是知识图谱的核心。 二、数据类型和存储方式 知识图谱的原始数据类型一般来说有三类也是互联网上的三类原始数据 结构化数据Structed Data如关系数据库非结构化数据如图片、音频、视频半结构化数据 如XML、JSON、百科 如何存储上面这三类数据类型呢一般有两种选择一个是通过RDF资源描述框架这样的规范存储格式来进行存储比较常用的有Jena等。 还有一种方法就是使用图数据库来进行存储常用的有Neo4j等。 那你可能会问我了你不就是一大堆的三元组吗用关系数据库来存储不也一样嘛。 是的用关系数据库来存储尤其是存储简单的知识图谱从技术上来说是完全没问题的。 但需要注意的是一旦知识图谱变复杂图数据库在关联查询的效率上会比传统的关系数据存储方式有显著的提高。当我们涉及到2,3度的关联查询基于知识图谱的查询效率会高出几千倍甚至几百万倍。 除此之外基于图的存储在设计上会非常灵活一般只需要局部的改动即可。 因此如果你的数据量较大还是建议直接用图数据库来进行存储的。 三、知识图谱的架构 知识图谱的架构主要可以被分为 逻辑架构技术架构 3.1 逻辑架构 在逻辑上我们通常将知识图谱划分为两个层次数据层和模式层。 模式层在数据层之上是知识图谱的核心存储经过提炼的知识通常通过本体库来管理这一层这一层本体库可以理解为面向对象里的“类”这样一个概念本体库就储存着知识图谱的类。数据层存储真实的数据。 如果还是有点模糊可以看看这个例子 模式层实体-关系-实体实体-属性-性值数据层比尔盖茨-妻子-梅琳达·盖茨比尔盖茨-总裁-微软 3.2 技术架构 知识图谱的整体架构如图所示其中虚线框内的部分为知识图谱的构建过程同时也是知识图谱更新的过程。 别紧张让我们顺着这张图来理一下思路。首先我们有一大堆的数据这些数据可能是结构化的、非结构化的以及半结构化的然后我们基于这些数据来构建知识图谱这一步主要是通过一系列自动化或半自动化的技术手段来从原始数据中提取出知识要素即一堆实体关系并将其存入我们的知识库的模式层和数据层。 构建知识图谱是一个迭代更新的过程根据知识获取的逻辑每一轮迭代包含三个阶段 信息抽取从各种类型的数据源中提取出实体、属性以及实体间的相互关系在此基础上形成本体化的知识表达知识融合在获得新知识之后需要对其进行整合以消除矛盾和歧义比如某些实体可能有多种表达某个特定称谓也许对应于多个不同的实体等知识加工对于经过融合的新知识需要经过质量评估之后部分需要人工参与甄别才能将合格的部分加入到知识库中以确保知识库的质量。 四、构建技术 前面我们已经说过了知识图谱有自顶向下和自底向上两种构建方式这里提到的构建技术主要是自底向上的构建技术。 如前所述构建知识图谱是一个迭代更新的过程根据知识获取的逻辑每一轮迭代包含三个阶段 信息抽取从各种类型的数据源中提取出实体、属性以及实体间的相互关系在此基础上形成本体化的知识表达知识融合在获得新知识之后需要对其进行整合以消除矛盾和歧义比如某些实体可能有多种表达某个特定称谓也许对应于多个不同的实体等知识加工对于经过融合的新知识需要经过质量评估之后部分需要人工参与甄别才能将合格的部分加入到知识库中以确保知识库的质量见下图 下面我们依次来对每一个步骤进行介绍。长文预警 4.1 信息抽取 信息抽取infromation extraction是知识图谱构建的第1步其中的关键问题是如何从异构数据源中自动抽取信息得到候选指示单元 信息抽取是一种自动化地从半结构化和无结构数据中抽取实体、关系以及实体属性等结构化信息的技术。 涉及的关键技术包括实体抽取、关系抽取和属性抽取。 ★ 4.1.1 实体抽取 实体抽取也称为命名实体识别named entity recognitionNER是指从文本数据集中自动识别出命名实体。 比如在下图中通过实体抽取我们可以从其中抽取出三个实体——“Steve Balmer”, “Bill Gates”,和”Microsoft”。 实体抽取的研究历史主要是从面向单一领域进行实体抽取逐步跨步到面向开放域open domain的实体抽取。 ★ 4.1.2 关系抽取 文本语料经过实体抽取之后得到的是一系列离散的命名实体为了得到语义信息还需要从相关语料中提取出实体之间的关联关系通过关系将实体联系起来才能够形成网状的知识结构。这就是关系抽取需要做的事如下图所示。 研究历史 人工构造语法和语义规则模式匹配统计机器学习方法基于特征向量或核函数的有监督学习方法研究重点转向半监督和无监督开始研究面向开放域的信息抽取方法将面向开放域的信息抽取方法和面向封闭领域的传统方法结合 ★ 4.1.3 属性抽取 属性抽取的目标是从不同信息源中采集特定实体的属性信息如针对某个公众人物可以从网络公开信息中得到其昵称、生日、国籍、教育背景等信息。 研究历史 将实体的属性视作实体与属性值之间的一种名词性关系将属性抽取任务转化为关系抽取任务。基于规则和启发式算法抽取结构化数据基于百科类网站的半结构化数据通过自动抽取生成训练语料用于训练实体属性标注模型然后将其应用于对非结构化数据的实体属性抽取。采用数据挖掘的方法直接从文本中挖掘实体属性和属性值之间的关系模式据此实现对属性名和属性值在文本中的定位。 4.2 知识融合 通过信息抽取我们就从原始的非结构化和半结构化数据中获取到了实体、关系以及实体的属性信息。 如果我们将接下来的过程比喻成拼图的话那么这些信息就是拼图碎片散乱无章甚至还有从其他拼图里跑来的碎片、本身就是用来干扰我们拼图的错误碎片。 也就是说 拼图碎片信息之间的关系是扁平化的缺乏层次性和逻辑性拼图知识中还存在大量冗杂和错误的拼图碎片信息 那么如何解决这一问题就是在知识融合这一步里我们需要做的了。 知识融合包括2部分内容 实体链接知识合并 ★ 4.2.1 实体链接 实体链接entity linking是指对于从文本中抽取得到的实体对象将其链接到知识库中对应的正确实体对象的操作。 其基本思想是首先根据给定的实体指称项从知识库中选出一组候选实体对象然后通过相似度计算将指称项链接到正确的实体对象。 研究历史 仅关注如何将从文本中抽取到的实体链接到知识库中忽视了位于同一文档的实体间存在的语义联系。开始关注利用实体的共现关系同时将多个实体链接到知识库中。即集成实体链接collective entity linking 实体链接的流程 从文本中通过实体抽取得到实体指称项进行实体消歧和共指消解判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义在确认知识库中对应的正确实体对象之后将该实体指称项链接到知识库中对应实体。 实体消歧是专门用于解决同名实体产生歧义问题的技术通过实体消歧就可以根据当前的语境准确建立实体链接实体消歧主要采用聚类法。其实也可以看做基于上下文的分类问题类似于词性消歧和词义消歧。共指消解技术主要用于解决多个指称对应同一实体对象的问题。在一次会话中多个指称可能指向的是同一实体对象。利用共指消解技术可以将这些指称项关联合并到正确的实体对象由于该问题在信息检索和自然语言处理等领域具有特殊的重要性吸引了大量的研究努力。共指消解还有一些其他的名字比如对象对齐、实体匹配和实体同义。 ★ 4.2.2 知识合并 在前面的实体链接中我们已经将实体链接到知识库中对应的正确实体对象那里去了但需要注意的是实体链接链接的是我们从半结构化数据和非结构化数据那里通过信息抽取提取出来的数据。 那么除了半结构化数据和非结构化数据以外我们还有个更方便的数据来源——结构化数据如外部知识库和关系数据库。 对于这部分结构化数据的处理就是我们知识合并的内容啦。一般来说知识合并主要分为两种 合并外部知识库主要处理数据层和模式层的冲突合并关系数据库有RDB2RDF等方法 4.3 知识加工 经过刚才那一系列步骤我们终于走到了知识加工这一步了 感觉大家可能已经有点晕眩那么让我们再来看一下知识图谱的这张架构图。 在前面我们已经通过信息抽取从原始语料中提取出了实体、关系与属性等知识要素并且经过知识融合消除实体指称项与实体对象之间的歧义得到一系列基本的事实表达。 然而事实本身并不等于知识。要想最终获得结构化网络化的知识体系还需要经历知识加工的过程。 知识加工主要包括3方面内容本体构建、知识推理和质量评估。 ★ 4.3.1 本体构建 本体ontology是指工人的概念集合、概念框架如“人”、“事”、“物”等。 本体可以采用人工编辑的方式手动构建借助本体编辑软件也可以以数据驱动的自动化方式构建本体。因为人工方式工作量巨大且很难找到符合要求的专家因此当前主流的全局本体库产品都是从一些面向特定领域的现有本体库出发采用自动构建技术逐步扩展得到的。 自动化本体构建过程包含三个阶段 实体并列关系相似度计算实体上下位关系抽取本体的生成 比如对下面这个例子当知识图谱刚得到“阿里巴巴”、“腾讯”、“手机”这三个实体的时候可能会认为它们三个之间并没有什么差别但当它去计算三个实体之间的相似度后就会发现阿里巴巴和腾讯之间可能更相似和手机差别更大一些。 这就是第一步的作用但这样下来知识图谱实际上还是没有一个上下层的概念它还是不知道阿里巴巴和手机根本就不隶属于一个类型无法比较。因此我们在实体上下位关系抽取这一步就需要去完成这样的工作从而生成第三步的本体。 当三步结束后这个知识图谱可能就会明白“阿里巴巴和腾讯其实都是公司这样一个实体下的细分实体。它们和手机并不是一类。” ★ 4.3.2 知识推理 在我们完成了本体构建这一步之后一个知识图谱的雏形便已经搭建好了。但可能在这个时候知识图谱之间大多数关系都是残缺的缺失值非常严重那么这个时候我们就可以使用知识推理技术去完成进一步的知识发现。 比如在下面这个例子里 我们可以发现如果A是B的配偶B是C的主席C坐落于D那么我们就可以认为A生活在D这个城市。 根据这一条规则我们可以去挖掘一下在图里是不是还有其他的path满足这个条件那么我们就可以将AD两个关联起来。除此之外我们还可以去思考串联里有一环是B是C的主席那么B是C的CEO、B是C的COO是不是也可以作为这个推理策略的一环呢 当然知识推理的对象也并不局限于实体间的关系也可以是实体的属性值本体的概念层次关系等。 比如 推理属性值已知某实体的生日属性可以通过推理得到该实体的年龄属性推理概念已知(老虎科猫科)和猫科目食肉目可以推出老虎目食肉目 这一块的算法主要可以分为3大类基于逻辑的推理、基于图的推理和基于深度学习的推理。 ★ 4.3.3 质量评估 质量评估也是知识库构建技术的重要组成部分这一部分存在的意义在于可以对知识的可信度进行量化通过舍弃置信度较低的知识来保障知识库的质量。 好啦在质量评估之后你是不是想说妈耶知识图谱终于构建完毕了。终于可以松一口气了。 4.4 知识更新 从逻辑上看知识库的更新包括概念层的更新和数据层的更新。 概念层的更新是指新增数据后获得了新的概念需要自动将新的概念添加到知识库的概念层中。数据层的更新主要是新增或更新实体、关系、属性值对数据层进行更新需要考虑数据源的可靠性、数据的一致性是否存在矛盾或冗杂等问题等可靠数据源并选择在各数据源中出现频率高的事实和属性加入知识库。 知识图谱的内容更新有两种方式 全面更新指以更新后的全部数据为输入从零开始构建知识图谱。这种方法比较简单但资源消耗大而且需要耗费大量人力资源进行系统维护增量更新以当前新增数据为输入向现有知识图谱中添加新增知识。这种方式资源消耗小但目前仍需要大量人工干预定义规则等因此实施起来十分困难。 五、知识图谱的应用 好了终于终于知识图谱的构建方式我们就此结束了 为了让大家不立刻弃疗让我们来看看知识图谱能做到什么以及目前已经做到了什么~ 智能搜索——也是知识图谱最成熟的一个场景自动给出搜索结果和相关人物构建人物关系图查看更多维度的数据反欺诈这主要有两部分原因一个是反欺诈的数据来源多样结构化和非结构化二是不少欺诈案件会涉及到复杂的关系网络不一致性验证类似交叉验证——关系推理异常分析运算量大一般离线 静态分析给定一个图形结构和某个时间点从中去发现一些异常点比如有异常的子图。动态分析分析其结构随时间变化的趋势。假设短时间内知识图谱结构的变化不会太大如果它的变化很大就说明可能存在异常需要进一步的关注。会涉及到时序分析技术和图相似性计算技术。失联客户管理 挖掘出更多的新联系人提高催收的成功率。…… 事实上知识图谱的应用远不止于此。在我看来这个世界就是一张巨大的知识图谱是无数个实体关系对这两年工业界对图数据库、知识图谱的巨大需求也同样反映出了这一点。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/87116.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

网站群建设规范定制开发小程序

一、环境空间的特点 环境空间是一种特殊类型的变量,它可以像其它变量一样被分配和操作,还可以以参数的形式传递给函数。 R语言中环境空间具有如下3个特点: 1、对象名称唯一性 此特点指的是在不同的环境空间中可以有同名的变量出现&#x…

正规的锦州网站建设新钥匙建站

Java面试题_2024新版Java高频面试题Java八股文面试真题 Java高频面试专题视频课程,瓤括了Java生态下的主流技术面试题,课程特色: 1、全面,jvm、并发编程、mysql、rabbitmq、spring、mybatis、redis、分布式、微服务、数据结构等等…

公司网站开发费计入什么科目定制旅游网站有哪些

近日,2020首届全国信创产业生态创新大赛颁奖盛典在北京信创园举办,霍因科技提交的“霍因科技-信创云统一存储和数据湖方案”荣获生态创新奖,这彰显了霍因科技在以数据存储技术推动信息技术应用创新产业方面的卓越成就。 据悉,首届…

湛江网站模网站建设vipjiuselu

1、NoSQL: 指的是非关系型数据库,主要分成四大类:键值存储数据库、列存储数据库、文档型数据库、图形数据库。 2、什么是Redis: Redis是一种基于内存的数据库,一般用于做缓存的中间件。 3、Redis的主要的特点: 1、Rd…

制冷机电工程东莞网站建设p2f网站系统

目录 一、性能测试的指标 1、并发量 2、响应时间 3、错误率 4、吞吐量 5、资源使用率 二、压测全流程 三、其他注意点 1、并发和吞吐量的关系 2、并发和线程的关系 四、调优及分布式集群压测(待仔细学习) 1.线程数量超过单机承载能力时的解决…

杭州网站维护公司商务型网站模板

「11」显示器采集捕获单个显示器的完整视频画面 在OBS软件中,「显示器采集」是一种用于捕集显示器屏幕画面的功能,您可以将其用于整个桌面窗口的采集到直播间。该功能主要用于捕捉您的计算机桌面屏幕内容,以便将其实时显示在直播窗口中&#…

个人网站建设制作asp网站发布ftp

vue和thymeleaf : 若先显示框架后加载数据则用vue 若后端处理好之后发送给前端页面显示用thymeleaf (弹幕) 对于前后端分离的认识: 使用vue 将前端页面、框架等建立好,只需要后端发送数据即可 但thymeleaf就需要在服务器启动之前将数据保存到…

wap网站设计上海交通大学毕业设计网站

HashSet存储自定义对象保证元素唯一性图解原理及代码优化 1.原理: * 1.HashSet原理 * 我们使用Set集合都是需要去掉重复元素的, 如果在存储的时候逐个equals()比较, 效率较低,哈希算法提高了去重复的效率, 降低了使用equals()方法的次数 * 当Hash…

网站内容建设出现的问题怎么更改wordpress主题的字体

一:背景 1. 讲故事 中秋国庆长假结束,哈哈,在老家拍了很多的短视频,有兴趣的可以上B站观看:https://space.bilibili.com/409524162 ,今天继续给大家分享各种奇奇怪怪的.NET生产事故,希望能帮助…

浙江华企做网站哪些网站是用织梦做的

1.安装Git、TortoiseGit和汉化包 Git官网: Git TortoiseGit和汉化包: Download – TortoiseGit – Windows Shell Interface to Git 2.常用命令 创建仓库命令 git init初始化仓库git clone拷贝一份远程仓库,也就是下载一个项目。提交与修改 git add添加文件到暂存区git…

玄武建设局网站惠州网站建设 鑫

阶段性反馈机制(如何持之以恒、让自己发疯) 反馈机制是王者荣耀的核心武器,击杀野怪获得金币,不断地努力,获得奖励是我们不断的玩这个游戏的主要原因,也是人的本能,我什么都得不到凭什么这么做&…

淮安 做网站 app网站编辑做啥都

集合类型 (Set) 是一个无序并唯一的键值集合。 之所以说集合类型是一个无序集合,是因为它的存储顺序不会按照插入的先后顺序进行存储,如下代码所示: 127.0.0.1:6379> sadd myset v2 v1 v3 #插入数据 v2、v1、v3 (integer) 3 127.0.0.1:6379> smembers myset #查询数…

网站版式有哪几种摘抄一则新闻

Character类除了封装了一个char外,还封装了Unicode字符级别的各种操作,是Java文本处理的基础。下面结合源码分析Character的贡献。 Unicode 也许你没听过Unicode,但应该见过UTF-8。UTF-8(8-bit Unicode Transformation Format&a…

音乐外链网站泰安新浪乐居房产网

1、首先为什么需要握手 首先我们看一下TCP报文段的结构 TCP报文段中的窗口这16位字段部分,这里窗口的作用就是为了实现流量的控制,为什么会有流量的控制的引入???它是这样来的:若是发送方发送数据的速度大于…

上海网站建设优建设工程质量安全管理协会网站

目录 一、为什么要引入“lambda函数”? 二、匿名函数的两种用法 参考: 本文来源:《Python全案例学习与实践》(2019年9月出版,电子工业出版社) Python允许使用一种无名的函数,称其为匿名函数…

石狮app网站开发哪家好seo课程总结

Java程序设计实验(NO.1)1、实验目的:使用Java的String类操作字符串和子串。写一个程序可以对两个字符串进行测试,判断第一个字符串是否包含在第二个字符串中,例如字符串“op”包含在字符串“interoperabilityop”中。当第一个字符串包含在第二…

模版网站和语言网站手机端便民服务平台网站建设

Kafka表引擎也是一种常见的表引擎,在很多大数据量的场景下,会从源通过Kafka将数据输送到ClickHouse,Kafka作为输送的方式,ClickHouse作为存储引擎与查询引擎,大数据量的数据可以得到快速的、高压缩的存储。 Kafka大家…

电商怎么做账谷歌seo和百度seo的区别

安卓中并不存在ActivityMainBinding这个类,这个类是在XML布局的最外层加入就会自动生成。但是你在最后绑定主布局时会报错获取不到根节点getRoot(). 最好的办法就是,删除原来的最外层节点,再重新添加,感觉是因为复制时并没有让系…

大兴快速网站建设哪家好做网站适合用什么字体

上一节介绍了VMware中安装centos7以及克隆系统,之中用到的几个命名还都是开发不常用的,这节课就准备讲解一下入门的Linux命名,都是日常使用的。首先呢,我们进入系统后,得先知道我是谁,我在哪儿?…

title 门户网站建设招标书来宾网站建设

整机工业级设计,通讯外设经过隔离保护 电源宽电压设计(9~36V DC ) 丰富的通讯接口,满足多种场合控制和通讯需求 四核工业级处理器,高性能,低功耗,高可靠性 机身无风扇设计,外壳小巧 搭载内核 100% 自主…