深入解析:KGGEN: 用语言模型从纯文本中提取知识图

news/2026/1/25 15:57:52/文章来源:https://www.cnblogs.com/gccbuaa/p/19529958

论文链接:https://arxiv.org/abs/2502.09956

代码链接:https://github.com/stair-lab/kg-gen

Abstract

近年来,构建知识图谱Knowledge graph(KG)基础模型的研究引起了广泛关注,但一个根本性的问题是:知识图谱数据相对稀缺。现有的高质量知识图谱大多由人工标注生成,经过模式匹配或早期自然语言处理技术提取而来。人工生成的知识图谱数量有限,而自动抽取的知识图谱往往质量堪忧。

本文提出了一种解决数据稀缺问题的新办法——一个文本到知识图谱(text-to-KG)生成器KGGen该方法利用语言模型从纯文本中生成高质量的知识图谱。与其他知识图谱抽取器不同,KGGen 会对相关实体进行聚类,以减少生成图谱中的稀疏性

KGGen 以 Python 库的形式发布(可通过 pip install kg-gen 安装),使所有研究者都能方便使用。与此同时,作者还发布了首个名为 MINE(Measure of Information in Nodes and Edges)的基准,用于评估抽取器从纯文本中生成有用知识图谱的能力。大家将该工具与现有抽取器进行了对比实验,结果显示 KGGen 在性能上显著优于其他方法。

有点好奇之前读light rag 的时候就已经其实是直接用llm去提取文本了,这个到底有哪里特殊的呢?

Contribution

  1. 我们提出了 KGGen,一个使用语言模型(LMs)从纯文本中抽取高质量知识图谱(KGs)的开源工具包。该工具以 Python 库的形式提供。

  2. 我们开发了首个用于文本到知识图谱(text-to-KG)抽取器的基准测试(benchmark),从而能够公平地比较现有方法的性能。

  3. 我们证明了 KGGen在该基准测试上比现有的抽取方式高出18%,展现了其利用语言模型生成功能性知识图谱的潜力。

这个基准值得重点关注

Related Works

OPENIE 开放信息抽取

开放信息抽取(Open Information Extraction,简称OpenIE)由斯坦福大学的CoreNLP:首先利用就是团队基于 Angeli 等人(2015)的研究构建。其基本流程Stanford CoreNLP流水线为每个句子生成“依存句法解析图”(dependency parse)。随后,一个经过训练的分类器会遍历依存解析图中的每一条边,判断是否应当创建(Yield)继续(Recurse)停止(Stop)处理当前子句。通过这些决策,麻烦的句子被拆分为更短且语义完整的独立子句。
在此基础上,系统会从这些子句中生成三元组形式的结构化信息——
(主语,关系,宾语)
,并为每个三元组分配一个置信度评分。
由于 OpenIE 不依赖输入文本的特定格式或领域结构,它能够处理几乎任何类型的文本。

Graph Rag

微软开发了 GraphRAG,一种将基于图的知识检索语言模型(LMs)相结合的方法(Larson & Truitt, 2024)。作为第一步,GraphRAG 供应了从纯文本生成知识图谱(KG)的作用,用以构建其内部数据库。
在该过程中,GraphRAG 通过
提示语言模型(prompting LMs)来提取节点(实体)及其之间的关系(边),从而生成初始图结构。为了提升抽取质量,系统使用了少样本提示(few-shot prompting)
,向语言模型提供高质量抽取的示例。
随后,GraphRAG 会将连接紧密的节点聚合为社群(communities),并为每个社群生成一段摘要,用以消除冗余信息。最终,图谱由这些社群构成节点,各社群间关系的摘要句子则作为边,从而形成一个结构化、语义浓缩的知识图谱。

Method

KGGen:从纯文本生成知识图谱

与大多数基于大型语言模型(LLM)的知识图谱(KG)抽取方法不同,我们采用一种multi-stagemethod(使用 GPT-4o),其主要步骤和Python 工具包kg-gen对应的模块分别为

  1. 从每个源文本中抽取实体和关系“generate” 模块:负责从文本中进行初始抽取;

  2. 在多个来源之间聚合图结构“aggregate” 模块:用于整合不同来源的图素材;

  3. 迭代地聚类实体和关系“cluster” 模块:用于动态地聚类实体并进行解析度调整。

在整个流程中,我们使用DSPy 框架来定义函数签名,以确保语言模型(LLM)的输出结果符合一致的JSON 格式。在实验中,我们使用 GPT-4o,但该实现可适用于任何由 DSPy 支持的语言模型。

我们对 LLM 提示(prompting)施加了严格约束,以降低语义上相似但重复的实体出现的概率。(这个具体看看咋个回事)
此外,我们对抽取出的边与关系进行了多次遍历(multi-pass),以便将相似的实体进行聚类并减少关系类型的数量。这种整合与聚类操作能有效防止生成稀疏的知识图谱,因为稀疏图可能会在标准嵌入算法(如TransE)下产生无意义的图嵌入结果。

我们的抽取途径包含若干步骤,下面将对此进行概述。每个步骤所使用的具体提示词(prompt)可在附录 A(Appendix A)中找到,整体流程如图 1(Figure 1) 所示。

GENERATE -- ENTITY AND RELATION EXTRACTION

1) 以非结构化文本作为输入,生成由三元组(triples)组成的初始知识图谱。
在这一过程中,大家通过DSPy 签名(signature) 调用 GPT-4o 模型,指示模型以结构化格式输出检测到的实体(entities)(具体怎么结构化)

Prompt for extracting entities: Extract key entities from the given text. Extracted entities are nouns, verbs, or adjectives, particularly regarding sentiment. This is for an extraction task, please be thorough and accurate to the reference text.


1) 我们进行第二次基于 DSPy 的语言模型调用,指示模型根据已识别的实体集合和源文本,输出相应的主语–谓语–宾语(subject–predicate–object)关系
实验结果表明,这种两步式(2-step)抽取方法能够更好地确保实体之间的一致性。

Prompt for extracting relations:Extract subject-predicate-object triples from the assistant message. A predicate (1-3 words) defines the relationship between the subject and object. Relationship may be fact or sentiment based on assistant’s message. Subject and object are entities. Entities provided are from the assistant message and
prior conversation history, though you may not need all of them. This is for an extraction task, please be thorough, accurate, and faithful to the reference text.

AGGREGATE -- AGGREGATION

在从每个源文本中抽取出三元组之后,我们将所有来源中的唯一实体与边(entities and edges)收集起来,并合并为一个统一的图结构
在此过程中,所有实体与边的字符串均被标准化为小写形式,以消除大小写差异带来的重复。
该聚合步骤的首要作用是减少知识图谱中的冗余
聚合阶段不依赖语言模型(LLM),其运算完全在结构层面完成。

CLUSTER -- ENTITY AND EDGE CLUSTERING

在完成抽取与聚合后,初始图通常仍包含大量重复或同义实体以及可能冗余的边
因此,聚类阶段是我们知识图谱抽取方法中的核心创新点,其目标是合并那些代表相同现实世界实体或概念的节点与边

大家采用一种基于语言模型的迭代式聚类办法(iterative LLM-based clustering),灵感来源于“人类群体通过讨论逐步达成术语统一”的过程。
与一次性解决全部聚类问题(在大规模实体集上难以实现)不同,KGGen 采用逐步顺序聚类,具体过程如下:

  1. 将整个实体列表输入语言模型上下文中,要求模型提取一个潜在的聚类。
    (可选)可通过传递“聚类指令字符串(cluster-instruction string)”来指导聚类方式。
    默认指令会考虑近义词、时态差异及单复数变化等因素。

  2. 使用 LLM-as-a-Judge/否)**形式回应验证结果。若聚类通过验证,则将其加入聚类集合,并从实体列表中移除已聚类的实体。就是调用对聚类进行验证,模型以**二元(

  3. 为聚类分配一个标签,用以最准确地表示该聚类中实体的共同含义。

  4. 重复步骤 1–3,直到连续n 次循环未成功生成新的聚类为止。

  5. 对剩余未聚类的实体按批次(batch size = b)进行检查,判断它们是否应当加入已有的聚类。

  6. 每当有新实体被加入某个聚类时,再次使用LLM-as-a-Judge 进行验证。

  7. 重复步骤 5–6,直到没有剩余实体需要检查为止。

对于**边(edges)**的聚类,我们使用相同的流程,但在提示(prompt)上做了轻微调整以适配关系结构。

该聚类过程使我们能够生成更加稠密(dense)且具有语义一致性的知识图谱,从而利于后续生成有意义的图嵌入(embeddings)

举一个实际例子,在我们的某个原始知识图谱中,出现了“vulnerabilities(漏洞)”、“vulnerable(脆弱的)”和“weaknesses(弱点)”这几个实体。
尽管它们在表面形式上不同,但语义上高度相似,因此在我们的图谱中应被视为等价实体并合并为一类。

一个用于评估抽取表现的Benchmark

即使目前已有一些方法尝试从纯文本中抽取知识图谱(KGs),但由于缺乏标准化的评测基准,该领域的研究进展难以客观衡量
为了解决这一问题,我们提出了MINE(Measure of Information in Nodes and Edges)——第一个用于评估知识图谱抽取器性能的基准测试。
MINE 衡量抽取器将文本内容转化并提炼为知识图谱的能力。

MINE 的构建过程包括为100 篇文章生成对应的知识图谱,每篇文章代表一个独立的文本材料来源。
每篇文章约 1000 字,由语言模型(LLM)根据100 个不同主题生成,主题范围涵盖历史、艺术、科学、伦理学与心理学等多个领域。
为了评估生成知识图谱的质量,我们设计了一种度量方法,用以衡量生成的知识图谱在多大程度上能够捕获文章中的关键信息

从每篇文章中,我们经过语言模型(运用附录 C 中的抽取提示)抽取出15 条事实性陈述(facts)
这些事实被定义为文章中明示的信息,并由人工验证其真实性与来源的准确性。
MINE 评估的核心在于:一个文本到知识图谱(text-to-KG)抽取器能否在其生成的知识图谱中捕获并表达这 15 条事实

对于每篇文章,使用被测试的文本生成对应的 KG。
生成后的 KG 节点运用SentenceTransformers 库中的 all-MiniLM-L6-v2 模型进行向量化,使得我们能够经过**余弦相似度(cosine similarity)**计算每个节点与事实句子的语义相似性

接着,对于每种知识图谱生成方法,我们在每篇文章的 KG 上执行以下评测步骤:

  1. 对于每条事实,找到与其语义最相近的前 k 个节点(top-k nodes)

  2. 对每个 top-k 节点,进一步找出与其通过两条关系以内相连的所有节点;

  3. 将这些节点及其关系作为查询结果返回。

然后,我们使用语言模型(LLM)对这些查询结果进行评估。
模型会接收特定的提示(详见附录 C),并输出二元判定结果

  • 若仅依据查询到的节点与关系即可推断出该事实,则输出1

  • 否则输出 0

对于每篇文章的每个知识图谱生成器,其最终的MINE 得分定义为 15 次评估中输出为 1 的比例
这种系统化的评估方法能够客观比较不同方法在从文本中捕获与检索信息方面的准确性与有效性

整个评测流程如图 2(Figure 2) 所示。

Experiment

Future

我们提出了 MINE——首个用于从纯文本中抽取知识图谱(KG)的评测基准。
为了解决阻碍基于图的基础模型发展的信息稀缺问题,我们还提出了KGGen,一种从纯文本生成知识图谱的抽取器,其在 MINE 基准上比现有方式提升了最高达 18% 的性能

尽管 KGGen已在性能上显著优于现有方法,但生成的知识图谱仍存在一些问题,例如过度聚类(over-clustering)聚类不足(under-clustering)
因此,未来的研究可以针对更高质量的聚类方法展开,以进一步提升知识图谱的准确性与语义一致性。

此外,我们当前的评测基准MINE主要用于衡量抽取器在相对较短的语料上的表现,而知识图谱在实际应用中往往用于高效处理海量信息这个倒是真的,因而其实图谱的层次性和多跳图谱可能挺主要的,有一说一不应该所有实体都在同一个维度上
未来,MINE 的扩展方向可包括:
在更大规模的语料库上进行评测,以更好地反映不同抽取技巧在真实场景下的实用性与可扩展性

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1215035.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Npm

NpmThreepnpm create vite@latest project-name -- --template vue-tspnpm create vite@latest threejs-helloworld --template vanilla-tspnpm create vite@latest threejs-reactfiles --template react-tspnpm creat…

Flutter实战:从零实现俄罗斯方块(一)数据结构与核心算法

Flutter实战:从零实现俄罗斯方块(一)数据结构与核心算法 文章目录Flutter实战:从零实现俄罗斯方块(一)数据结构与核心算法摘要前言一、我想先设计好游戏的数据结构1.1 七种方块怎么表示?1.2 棋盘…

Flutter实战:从零实现俄罗斯方块(三)交互控制与事件处理

Flutter实战:从零实现俄罗斯方块(三)交互控制与事件处理 文章目录 Flutter实战:从零实现俄罗斯方块(三)交互控制与事件处理摘要前言一、键盘事件监听1.1 RawKeyboardListener的基本用法1.2 如何映射按键到游…

基于单片机的模拟量检测与限值报警系统设计

系统总体概述 点击链接下载prrotues仿真设计资料:https://download.csdn.net/download/m0_51061483/91644949 基于单片机的模拟量检测与限值报警系统是一类典型的嵌入式测控系统,广泛应用于工业控制、环境监测、水位检测、浓度检测以及教学实验等领域。…

【计算机毕业设计案例】基于springboot的日用品销售系统基于springboot+vue的日用品销售系统设计与实现(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

西门子1200模板:三轴机械手联动控制及结构化编程实现案例

西门子1200模板 程序采用1215PLC,项目实现以下功能: A.三轴机械手联动取放料PTO脉冲定位控制台达B2伺服 B.台达伺服速度模式应用扭矩模式应用实现收放卷 C.程序为结构化编程,每一功能为模块化设计,功能:自动_手动_单步_暂停后原位置继续运行_轴断电保持_…

【计算机毕业设计案例】基于springboot的挂号就诊管理系统社区诊所在线挂号与排队系统(程序+文档+讲解+定制)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

Hudi Flink 集成分析

07. Hudi Flink 集成分析 主题说明 Hudi 与 Flink 的集成支持流式写入和批式查询,让 Flink 能够实时写入 Hudi 表。理解 Flink 集成有助于理解流式数据湖的实现。 Flink 集成包括: DataStream API:流式写入支持Table API:SQL 查询…

Excel CHAR函数实战:从自动换行到特殊符号,这些技巧让效率翻倍

你是否经常需要在Excel中插入特殊符号,或者实现智能换行?CHAR函数就是你的秘密武器!这个看似简单的函数,却能解决数据展示中的诸多难题。 一、CHAR函数基础 函数语法 CHAR(数字编码) 功能:返回对应数字编码的字符 编…

2026年细聊合肥东辰职业学校,其奖学金政策如何你了解吗

在职业教育选择的关键节点,每一位学子与家长都在寻找能兼顾技能成长、学历提升与经济保障的可靠平台。合肥东辰职业学校作为安徽文峰教育集团旗下的省级示范普通中专,始终聚焦学子核心需求,以多元务实的政策与教学体…

2026年安徽办公家具品牌制造商排名Top10

本榜单依托全维度市场调研与真实行业口碑,深度筛选出五家标杆企业,为企业选型提供客观依据,助力精准匹配适配的办公家具服务伙伴。 TOP1 推荐:合肥迈亚家具有限公司 推荐指数:★★★★★ | 口碑评分:安徽地区10年…

升降平台生产厂哪家合作案例多的排名情况

2026年工业物流自动化持续升级,升降平台作为生产、仓储、物流场景的核心设备,其品质稳定性、服务专业性与定制适配性直接决定企业的运营效率与安全成本。无论是重型负载的剪叉式升降平台、360旋转的弹簧平衡平台,还…

2026气肥煤值得推荐的厂家,新疆硕华金腾等品牌口碑佳!

本榜单依托全维度市场调研与真实行业口碑,深度筛选出五家标杆企业,为煤炭采购企业(尤其是化工、冶金等需气肥煤的行业)提供客观依据,助力精准匹配适配的供应伙伴,解决煤源不稳定、运力无保障、指标不达标等采购痛…

2026年江苏连续镀信誉良好厂家推荐,选哪家更靠谱?

本榜单依托全维度市场调研与真实行业口碑,深度筛选出五家专业的连续镀厂家,为精密零部件、金属带材加工企业选型提供客观依据,助力精准匹配适配的服务伙伴。 TOP1 推荐:无锡鼎亚电子材料有限公司 推荐指数:★★★…

解读哪个电加热导热油炉生产厂性价比高,排名给你参考

本榜单依托全维度市场调研与真实行业口碑,深度筛选出五家标杆电加热导热油炉制造企业,为工业企业选型提供客观依据,助力精准匹配适配的加热设备合作伙伴。 TOP1 推荐:江苏瑞源加热设备科技有限公司 推荐指数:★★…

升降平台哪个厂商价格合适,固佳工业设备令人放心

2026年智能制造与物流升级浪潮下,升降平台作为衔接生产、仓储、物流环节的核心设备,其设计科学性、定制适配性与价格合理性直接决定企业作业效率与安全成本。无论是汽车制造车间的重型物料搬运,还是电商仓储的高频货…

炭黑分散度测试仪制造企业哪家性价比高,汇诚仪器是优选

在高分子材料研发与质量管控领域,炭黑分散度测试仪是衡量材料性能的关键设备,其精度直接影响产品的耐磨、导电与抗老化特性。面对市场上技术水平参差不齐的炭黑分散度测试仪制造企业,如何挑选适配自身需求的设备?以…

2026年新疆优质气肥煤厂家排名揭晓,新疆硕华金腾商贸口碑咋样?

本榜单依托全维度市场调研与真实行业口碑,深度筛选出五家标杆企业,为工业、化工等领域企业选型提供客观依据,助力精准匹配适配的优质气肥煤供应伙伴。 TOP1 推荐:新疆硕华金腾商贸有限公司 推荐指数:★★★★★ |…

07】PDFium.pas的TPdf.AddText 函数中文乱码

07】PDFium.pas的TPdf.AddText 函数中文乱码C:\Users\Administrator\Desktop\Delphi\CreatePdf [记录一下]pdfium中文乱码(2ccc论坛的问题) - 秋风 - 博客园 将PDFium.pas的TPdf.AddText 函数中:TextObject:=FPDFPa…

‍球迷效应与流量博弈:U23亚洲杯中国队决赛之路的隐性逻辑

球迷效应与流量博弈:U23亚洲杯中国队决赛之路的隐性逻辑 北京时间2026年1月24日深夜,沙特吉达阿卜杜拉费萨尔王子体育城体育场,随着主裁判终场哨响,U23亚洲杯决赛以中国队0-4不敌日本队落幕。亚军战绩创下中国男足国字号球队自20…