技术动态 | 去中心化知识图谱协作平台建设实践

转载公众号 |  DataFunTalk



文章作者:Epik 铭识协议

出品平台:DataFunTalk

导读:1月10日,由EpiK铭识协议主办的“2021开源知识运动”主题活动为业界带来了一场知识图谱开放与互联的智慧盛宴。活动吸引了包括清华大学信息技术研究院副院长邢春晓、中国计算机学会知识图谱 SIG 主席/著名知识图谱专家/OpenKG主要发起人王昊奋、东北大学自然语言处理实验室副主任/小牛思拓创始人王会珍在内的重量级嘉宾参与。在此次大会上,EpiK借助区块链去中心化的协作模式搭建共建共享共益的开放知识库的构想与实践成为核心亮点并被一众专家学者给予高度评价。

接下来文章将从以下几个方面全面解析EpiK开源知识运动:

  • 为何要构建去中心化知识图谱协作平台

  • 开源知识运动面临的挑战

  • EpiK铭识协议解决方案

  • 谁可以参与这场开源知识运动

01

为何要构建去中心化知识图谱协作平台

当前,人工智能时代已经来到下半场,我们不再满足于无法解释的模型模拟,赋予 AI 认知能力是必须突破的瓶颈。而在开阔 AI 认知的道路上,知识图谱作为机器读懂人类知识的重要媒介,正在成为人工智能时代重要的基础设施。

然而,大规模知识图谱基础设施的建设涉及到来自各领域间海量知识内容,对数据质量要求高,因此,需要组织不同领域大量的劳动力共同投入到建设当中。但是共建知识图谱的信任成本极高,企业间、国家间的互不信任,导致了大量的重复劳动,如何搭建知识图谱共建平台的需求浮现于众,而在共建平台之上贡献者们如何共享共益更是必然要解决的问题。

2020年,是区块链去中心化存储技术成熟的一年,搭建一个无许可的、防篡改的、可追溯的公共数据库成为可能,共建共享共益的知识图谱协作平台有了实践基础。

02

开源知识运动面临的挑战

比特币价格不断冲击历史新高,DeFi、IPFS、DAO等新兴区块链应用层出不穷,让人看到了更多区块链的可能性。但基于区块链构建共建共享共益的知识图谱协作平台并非易事,这要面临一系列的挑战:

首先,如何实现共建?将各知识领域的人组织在一起共同参与构建高质量的大规模知识图谱,有效的激励机制和严格的数据质量验收机制缺一不可;其次,如何实现共享?共享知识图谱数据面临着可信存储的问题,创建各贡献方都可以无许可访问的不可篡改的公共存储平台是必经之路;再次,如何实现共益?知识图谱数据可被 0 成本复制传播,为贡献者找到高效的可变现方式是持续协作的动力源。

基于此,EpiK 借助“去中心化存储、去中心化自治组织、通证经济模型”三大区块链前沿技术分支,提出了一套完整的解决方案。

03

EpiK铭识协议解决方案

针对于去中心化知识图谱构建痛点,EpiK深入剖析区块链技术应用,为去中心化知识图谱构建勾画出基于区块链底层逻辑的技术架构。

其中,最核心的便是知识存储部分,这里我们核心介绍其中三大重要组件:

  • Storage,提供共享的可信存储,数据不可被随意篡改,数据不可被拒绝访问;

  • Incentive,为生态内多种贡献者角色提供激励,在保证各方追求自身利益最大化的同时,能合力共建高品质的知识图谱;

  • DAO,允许社区共参与系统参数治理,针对不同发展阶段进行动态调整。

1. Storage

EpiK 的 Storage 组件基于 IPFS 协议进行搭建。IPFS 是一种分布式网络传输协议,该协议将接入的计算机设备连接为同一个文件系统。提交给 IPFS 网络的文件,将被切分为多份,每份都拥有独立的 Hash 值,借助 Merkle Trie 数据结构,将切分出来的多份数据块组织连接到同一个根节点下,生成唯一的 File Root Hash,即为文件 Hash 值。多个文件的根也会被组织到一颗更大的 Merkle Trie 结构中,形成唯一的 Root Hash。这种结构有一个好处,即重复数据块不会被重复存储而且节点彼此之间仅需同步 Root Hash 即可保持对全局文件的一致性视角。每个节点可以自由选择保存哪些数据块,并告知其他节点自己存了哪些数据块,每个节点会把他们了解到的其他节点的存储情况记录在 DHT 中,方便在接受访问需求时,可以快速锁定哪些节点有对应的数据并向其索取。IPFS 成功地将诚实无私的节点连接起来,对外提供了一个统一的文件系统操作接口。但 IPFS 也有其现实中的问题:缺乏激励机制和防作弊机制,节点可能作恶而且可能随时下线,这些因素都导致仅靠 IPFS 来构建存储是不可靠的。

激励手段我们将在3-2中介绍,这里我们简要介绍节点潜在的作弊手法。举例来说,一份文件为了保证高可用性,会在网络中多个地方保存多份,如果现在有两名矿工都向网络广播他们存储了同一份文件,以此向整个系统索要两份存储奖励,但是这两名矿工可能实际分享着同一份物理存储,文件真实只存了一份,整个系统理应只支付一份存储奖励。这就是分布式系统里常见的女巫攻击。

为了防止女巫攻击,EpiK 在 Storage 组件中集成了由 FileCoin 提出的基于零知识证明的复制证明(PoRep,Proof-of-Replication)和  时空证明(PoSt,Proof-of-Spacetime)两种验证方法。其中,复制证明的作用是证明节点的确按照要求在本地完整存储了原始数据的全新副本;时空证明的作用是证明节点还在本地持续保存着原始数据的全新副本。复制证明的原理是,使用当前节点的全局唯一 ID 作为种子,然后通过计算密集型的加密算法对源文件完成密封,然后广播密封后数据的零知识证明,虽然密封过程复杂,但是其他节点可以轻松验证密封过程的正确性。时空证明的原理是,节点需要定期广播已存文件的一个随机零知识证明,这个证明如果从非密封的源文件开始生成将会及其耗时,可能导致节点无法按时完成证明的广播,如果其他节点没有及时收到该节点的时空证明广播,将会认为该节点已经丢失了这份文件。所以为了保障时空证明的及时性,节点不能丢弃已经密封好的文件数据。

有了存储系统和验证机制之后,我们还需要保证所有节点之前保持数据一致性,这就要求所有节点对于文件有哪些,是按照什么顺序广播给全网的都需要保持一致。这里就引入了区块链账本技术,所有新文件的创建及其创建顺序、节点存储文件的行为、节点提交存储证明的行为都被记录到一个全网共识的区块链账本上,每个节点都会同步完整账本已获得和全网一致的数据视角。有了文件内容和文件顺序之后,EpiK 便可以在 Storage 组件中存储知识图谱数据库操作日志文件,每个节点按顺序同步这些日志文件之后,便可以在本地恢复出全网一致的完整知识图谱数据库。

目前 EpiK 网络中已经有 9000+ 节点注册,5000+ 节点接入成功提供存储。EpiK 当前设置中,每一份文件会在网络里存储 3000 份,如果少于 3000 份,新存储的节点可以获得额外的激励,黑客要 DDoS 整个 EpiK 文件知识图谱数据库将会变得极其困难。而且全网同步同一账本信息,黑客只有控制全网超过51%的节点才能篡改账本,攻击成本也会极其高昂。

2. Incentives

EpiK 将知识图谱贡献者分为 3 类,分别为数据矿工、领域专家和赏金猎人,另外还有一个使用者的角色,为数据网关。每天 EpiK 网络都会产出固定数量的积分奖励,如何将这些积分合理分配到这3类角色手上以激励他们为公共知识图谱数据库做贡献,以及如何设计合理的机制来回收积分,都在 Incentives 组件中定义。

数据矿工是物理设备提供者,通过提供存储和带宽资源来获得收益,每天产出积分的 75% 归属数据矿工群体。存储的数据越多,收益越高,提供的数据下载流量越大,收益越多。与此同时,为了预防数据矿工随意下线导致数据备份减少,系统安全性下降,所有数据矿工都需要抵押一部分积分才能成为数据矿工,通过提供存储和带宽资源获益。积分收益将通过区块链合约自动下发,无需经过任何中间人审核。

领域专家是知识图谱数据的贡献者和验收员,也是整个系统中唯一有权利上传知识图谱数据的群体,他们通过贡献高品质的知识图谱数据获得收益。每天产出积分的 9% 归属领域专家群体,贡献的数据越多,收益越高。但为了照顾不同领域数据规模的差异,不同领域专家贡献的数据大小会在取 log 后按比例获得奖励。当然,作为全系统唯一有数据上传权利的群体,对于领域专家有着严格的监督机制。首先,领域专家必须由已经是领域专家的人提名产生,提名后的领域专家还需要在社区中获得 10w 票的支持,每一票都以为着一个积分被锁定。一旦领域专家票数(锁仓积分数)少于10万票,则失去资格。如果领域专家上传虚假、垃圾数据,社区将给予除名处罚,提名了被除名领域专家的人也将受到连带惩罚。为了鼓励大家投票,每天产出积分的 1% 归属所有参与投票的用户,投票越多收益越高。

在将赏金猎人之前,我们先介绍数据网关。数据网关是用户获取最新第一手知识图谱数据的唯一途径,数据网关需要抵押积分来获得数据访问流量,比如抵押 1 积分可以获得每日 10MB 的数据访问流量。那么对于 EpiK 上知识图谱数据的需求越多,数据网关们抵押的积分就会越多,积分的需求会增加,贡献者们持有的积分就会越有价值。

有了数据网关抵押积分的概念,我们再来讲赏金猎人。赏金猎人是知识图谱数据的标注员和验证者,他们通过完成领域专家发布的任务来获得收益。赏金猎人的收益是随着数据网关抵押积分的多少来动态变化,如果数据网关抵押的积分越多,证明目前 EpiK 上知识图谱数据质量还不错,那我们会更多地激励数据矿工们提升带宽,让数据访问服务更加顺畅,于是每天产出积分的剩余 15% 会更多地分配给数据矿工群体;但如果数据网关抵押的积分不多,那说明 EpiK 上知识图谱数据质量还有待提升,那么我们会把剩余 15% 更多地分配给赏金猎人,让更多人工可以参与进来提升数据质量。

在整个生态中,每个角色都通过激励模型让自己利益实现最大化,数据矿工应该提供更多的存储,而且需要去督促领域专家优化知识图谱数据质量,从而赢得更多收益;领域专家则是不断提供更新更高质量的数据通过贡献来分得更高收益;赏金猎人则是完成更多的任务来获得更多收益,无形的手推动各方共建知识图谱。

3. 去中心化社区治理

一辆无人驾驶的汽车四处巡航,正在寻找乘客。乘客下车后,这辆车使用其利润去充电站充电,在其初始的编程设定外,不需外部的帮助就可以决定如何执行其任务。这是比特币核心协议开发者麦克·赫恩(Mike Hearn)描述的一个去中心化组织或者说 DAO 的理想用例,即依托智能合约,组织就可能实现无层级化管理的运作。DAO是区块链发展过程中的一项重要延展,而EpiK 铭识协议借鉴了这种组织形式,将它运用于去中心化知识图谱的构建中去。

EpiK 存在多个 DAO,有治理全局参数的 EpiK DAO,如修改各群体收益占比等参数等;有治理领域专家内部参数的 Experts DAO,如修改领域专家间积分分配算法等;有治理矿工内部参数的 Miners DAO,如修改每份文件的备份数量等。DAO 中的各级角色通过智能合约实现自己在组织中的功能,从而使得知识图谱构建这件事儿,被赋予了自动化的流程体系,大大提升了自身的专业性和效能,DAO 一旦运转起来将为全球超大知识图谱构建解放巨大的生产力。

依托三驾马车,EpiK的知识图谱+区块链模式爆发出前所未有的活力,构建起开源知识共建共享共益平台。

04

谁可以参与这场开源知识运动

EpiK 开源知识运动让更多人看到了知识图谱未来对于AI的重要价值,同时也促使越来越多的人加入到 EpiK 共建共享共益的行动中来。事实上,EpiK 是一个底层的数据平台,不同身份的人都能参与到这个平台建设中来。那么什么样的人可以参与进来呢?

首先,各行业资深从业者可以报名参加成为该行业的领域专家,职责之一就是要确保数据的准确,同时也去把知识图谱数据标注任务合理地拆分、下发到平台上,让用户可以参与进来共同维护这些领域的知识图谱。

其次,EpiK 引入赏金猎人角色,帮助领域专家完成特定领域的任务。EpiK 赏金猎人只需完成简单的选择题,如回答 Yes or No ,每个回答的背后都会意味着一份知识图谱的逐步完善。完成任务之后,赏金猎人将按劳获得领域专家分配的奖励。按目前测算,不低于时薪 36 元。EpiK 希望可以调动更多的人,可以利用碎片化时间兼职参与进来,同时也能促进三四线城市的全新就业机会。

再次,可以选择做矿工,只需要提供相应的储存空间就可以成为数据矿工。在获得丰富奖励的同时,也是在为人类永恒知识库做出自己的一份贡献。

还有是数据变现,这里涉及两个方面:一方面是数据网关,随着链上数据的增多,参与人员可以通过为链上的数据做知识聚合,提供一些知识好用的访问服务以获得相应的补偿和收益;另一个层面就是对接应用方,可以帮助企业方省去高昂建数据库的成本。

05

说在最后

本文讲解了EpiK去中心化知识图谱开放协作平台的三重构建逻辑,在此基础上,EpiK 知识图谱库将成为人工智能未来发展的重要基石,为未来智能化应用落地提供重要的数据支撑推动数据价值的持续升级。

EpiK 开源知识运动正在开启一场50年由碳基生命向硅基生命的史诗级布道,一条通往 AI 未来大道正熠熠生辉。

今天的分享就到这里,谢谢大家。


 

OpenKG

OpenKG(中文开放知识图谱)旨在推动以中文为核心的知识图谱数据的开放、互联及众包,并促进知识图谱算法、工具及平台的开源开放。

点击阅读原文,进入 OpenKG 网站。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/478212.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

权威赛事来了!千言-文本生成评测启动,聚焦NLG技术痛点

自然语言生成是人工智能的重要前沿技术,该技术在落地时会面临一个难题:如何保证模型生成的文本与输入具有事实层面的一致性,即避免生成错误、臆想的信息?为推动相关研究,中国中文信息学会自然语言生成专委会与千言开源…

CRM系统新思维

客户关系管理系统(CRM系统)是管理公司当前以及未来潜在客户的系统,其主要目的是通过优化客户关系实现公司销售业绩的长期增长,它是企业信息系统的核心之一。目前,移动互联网、大数据以及人工智能技术发展日新月异&…

LeetCode 980. 不同路径 III(DFS+回溯)

1. 题目 在二维网格 grid 上,有 4 种类型的方格: 1 表示起始方格。且只有一个起始方格。2 表示结束方格,且只有一个结束方格。0 表示我们可以走过的空方格。-1 表示我们无法跨越的障碍。 返回在四个方向(上、下、左、右&#x…

开源开放 | 开源网络通信行业知识图谱(新华三)

转载公众号 | 数字化领航OpenKG地址:http://openkg.cn/dataset/network-communication文章作者:新华三集团出品平台:数字化领航OpenKG是中国中文信息学会语言与知识计算专业委员会所倡导的开放知识图谱社区项目。旨在推动以中文为基础的知识图…

我删了这些训练数据…模型反而表现更好了!?

文 | Severus编 | Sheryc_王苏预训练语言模型的训练语料是全网数据,其来着不拒,只要喂过来的数据,统统吃掉,尽可能消化掉。而统计模型,除泛化能力外,另一个重要的能力就是记忆能力。我们知道,人…

会议交流 | CAAI BDSC2021大会专题七:社会计算与开放知识图谱

CAAI第六届全国大数据与社会计算学术会议(China National Conference on Big Data & Social Computing,简称BDSC)将于8月21-22日在重庆召开。早鸟注册开始了,截止时间为7月30日,注册链接:http://bdsc20…

高性能队列——Disruptor

背景 Disruptor是英国外汇交易公司LMAX开发的一个高性能队列,研发的初衷是解决内存队列的延迟问题(在性能测试中发现竟然与I/O操作处于同样的数量级)。基于Disruptor开发的系统单线程能支撑每秒600万订单,2010年在QCon演讲后&…

哈工大SCIR出品《自然语言处理》新书,无套路送5本!

自然语言处理面临着8个难点,即语言的抽象性、组合性、歧义性、进化性、非规范性、主观性、知识性及难移植性。正是由于这些难点的存在,导致自然语言处理任务纷繁复杂。不过,虽然自然语言处理任务多种多样,却可以被归为三大类常见的…

OpenKG开源系列|开源知识图谱融合工具OpenEA (南京大学)

OpenKG地址:http://openkg.cn/tool/openeaGitHub地址:https://github.com/openkg-org/OpenEAGitee地址:https://gitee.com/openkg/OpenEA开放许可协议:GPL 3.0贡献者:南京大学(胡伟、孙泽群、张清恒、王成名…

领域应用 | 美团商品知识图谱的构建及应用

转载公众号 | DataFunTalk分享嘉宾:曹雪智博士 美团 技术专家编辑整理:陈维美出品平台:DataFunTalk导读:在互联网新零售的大背景下,商品知识图谱作为新零售行业数字化的基石,提供了对于商品相关内容的立体化…

LeetCode 131. 分割回文串(回溯)

文章目录1. 题目2. 回溯1. 题目 给定一个字符串 s,将 s 分割成一些子串,使每个子串都是回文串。 返回 s 所有可能的分割方案。 示例: 输入: "aab" 输出: [["aa","b"],["a","a","b"] ]来…

Java NIO浅析

NIO(Non-blocking I/O,在Java领域,也称为New I/O),是一种同步非阻塞的I/O模型,也是I/O多路复用的基础,已经被越来越多地应用到大型应用服务器,成为解决高并发与大量连接、I/O处理问题…

抓住训练集中真正有用的样本,提升模型整体性能!

文 | Severus编 | 小戏在任务中寻找到真正有用的训练样本,可以说一直是机器学习研究者们共同的诉求。毕竟,找到了真正有用的训练样本,排除掉训练样本中的杂质,无论最终是提升训练模型的效率,还是提升了模型最终的测试性…

领域应用 | 完备的娱乐行业知识图谱库如何建成?爱奇艺知识图谱落地实践

转载公众号 | 爱奇艺技术产品团队 2012年5月16日,谷歌首次正式提出了知识图谱的概念,希望利用结构化知识,来增强搜索引擎,提高搜索质量和用户体验。也就是说,从诞生之日起,知识图谱就和搜索引擎密不可分。随…

LeetCode 365. 水壶问题(最大公约数)

文章目录1. 题目2. 最大公约数1. 题目 有两个容量分别为 x升 和 y升 的水壶以及无限多的水。请判断能否通过使用这两个水壶,从而可以得到恰好 z升 的水? 如果可以,最后请用以上水壶中的一或两个来盛放取得的 z升 水。 你允许: …