知识图谱正在成为跨各个领域组织和检索信息的强大工具。它们越来越多地与机器学习和自然语言处理技术相结合,以增强信息检索和推理能力。在本文中,我介绍了一种用于构建知识图谱的三层架构,结合了固定本体实体、文档片段和提取的命名实体。通过利用嵌入和余弦相似度,这种方法提高了检索效率,并允许在查询期间更精确地遍历图。该方法提出了构建基于固定实体的知识库的方法,提供了一种可扩展且成本效益高的替代大型语言模型(LLM)的方案,同时符合当前检索增强生成(RAG)系统的发展趋势。
之前的一篇用于构建知识图谱的固定实体架构,利用嵌入将其用作检索增强生成(RAG)解决方案中检索步骤的向量数据库。这篇文章的目的是介绍使用预定义本体构建图的概念。这个本体是基于一个简单的示例句子:“阿尔伯特·爱因斯坦发展了相对论,这一理论革新了理论物理和天文学。”我展示了如何在不依赖昂贵的 LLM 方法的情况下,轻松创建基于知识图谱的向量数据库。
简而言之,所介绍的方法涉及创建两个实体层。第一层节点,我们可以称之为固定实体层(FEL1),代表可以通过领域专家使用其知识、经验或来自特定领域的某些真实文档构建的本体“骨架”。第二层由你希望用作实际知识库的文档组成。这些文档被分成片段并作为文档节点存储在基于 Neo4j 的知识图谱中。
这种方法的关键在于两个层之间的连接。通过计算第一层(FEL1)和第二层之间