
原文: https://mp.weixin.qq.com/s/BC8tCReIkciOjQl330SD4g
LightRAG:集多功能于一身,检索增强生成新利器!
LightRAG 是一个 简单高效的检索增强生成(RAG) 的 框架。简单讲,它通过快速检索外部知识来提升大模型生成内容的准确性和速度。适用人群:自然语言处理研究人员、AI开发者。
项目地址:https://github.com/HKUDS/LightRAG
主要语言:Python
stars: 24.2k

核心功能
- 检索增强生成(RAG):LightRAG 是一个用于检索增强生成的工具,它能利用大型语言模型(LLM)和嵌入模型,结合知识图谱和向量检索,从文档中提取实体关系,并根据查询返回相关结果。
- 知识图谱管理:支持创建、编辑和删除实体及关系,能维护知识图谱的一致性和完整性。例如,可以创建像“Google”和“Gmail”这样的实体,并定义它们之间的关系。
- 多模态处理:通过与 RAG-Anything 集成,支持处理文本、图像、表格和公式等多模态数据,实现从文档摄入、解析到智能查询回答的端到端多模态流程。
- 数据管理:提供数据插入、删除和导出功能。支持批量插入、按文档 ID 删除,还能将知识图谱数据以多种格式(如 CSV、Excel、Markdown 等)导出。
- 缓存和性能优化:支持 LLM 结果缓存,可减少重复计算。同时,提供 TokenTracker 工具来监控和管理 LLM 的 token 消耗,有助于控制 API 成本和优化性能。
- 评估和跟踪:集成了 RAGAS 进行评估,可对 RAG 系统的性能进行参考无评估。还支持与 Langfuse 集成,实现对 OpenAI LLM 调用的跟踪和监控。
优势
- 简单快速:名称中的“Light”体现了其简单高效的特点,能够快速处理查询并返回结果。
- 可扩展性:消除了处理瓶颈,能有效支持大规模数据集。例如,在 2025 年 10 月 22 日的更新中,增强了对大规模数据集的处理能力。
- 多模型支持:支持多种 LLM、嵌入模型和重排器模型,如 OpenAI、Hugging Face、Ollama 等模型,用户可根据需求灵活选择。
- 数据隔离:通过
workspace参数确保不同 LightRAG 实例之间的数据隔离,适用于多用户或多项目场景。 - 综合评估:提供了全面的评估框架,可从多个维度(如全面性、多样性、赋能性)评估 RAG 系统的性能。
代码架构特点
- 模块化设计:代码采用模块化设计,各个功能模块(如存储、模型调用、查询处理等)相互独立,便于扩展和维护。
- 异步编程:大量使用异步编程,提高了系统的并发处理能力和响应速度。例如,在插入和查询操作中都支持异步处理。
- 配置灵活:提供了丰富的初始化参数,用户可以根据需要定制存储类型、模型配置、缓存设置等。
更新日志
- 2025.11.05:集成了 RAGAS 进行评估和 Langfuse 进行跟踪,更新 API 以返回检索到的上下文。
- 2025.10.22:消除处理瓶颈,支持高效处理大规模数据集。
- 2025.09.15:显著提高了小型 LLM(如 Qwen3 - 30B - A3B)的知识图谱(KG)提取准确性。
- 2025.08.29:支持重排器,提升了混合查询的性能,并将其设为默认查询模式。
- 2025.08.04:支持文档删除并进行 KG 再生,确保查询性能。
- 2025.06.16:团队发布了 RAG - Anything,一个全功能的多模态 RAG 系统。
- 2025.06.05:通过与 RAG - Anything 集成,支持全面的多模态数据处理。
应用场景
- 智能客服:利用知识图谱和多模态处理能力,快速准确地回答用户的问题,提高客户满意度。
- 信息检索:在大规模文档集合中进行高效检索,为用户提供相关的信息和知识。
- 数据分析:对多模态数据进行处理和分析,挖掘数据中的潜在价值。
- 知识管理:创建和管理企业或组织的知识图谱,方便知识的存储、检索和共享。