摘要
Advanced RAG 的后检索优化,是指在检索环节完成后、最终响应生成前,通过一系列策略与技术对检索结果进行深度处理,旨在显著提升生成内容的相关性与质量。在这些优化手段中,上文压缩与过滤技术是提升检索结果质量的重要手段。它能巧妙筛除冗余、无关信息,萃取关键内容,为后续处理奠定优质基础。本文将聚焦上文压缩与过滤技术展开深入探究,并依托功能强大的 LangChain 框架,具体阐释相关策略的实现路径,助力深入理解与应用这一关键技术。
上下文压缩原理说明
-
多元检索:利用各类基础检索器,如基于关键词匹配的传统检索器、向量检索器等。这些检索器从不同数据源(如文档库、知识库等)获取与问题相关的信息。比如在一个企业知识问答场景中,向量检索器可从企业内部文档向量数据库中找出语义相关的文档片段,关键词检索器则可定位包含特定业务术语的资料。
-
信息汇聚:将从不同检索器获取到的信息整合到文档压缩器中。此时,收集到的信息可能包含大量冗余、不相关或重复的内容。例如,多个检索器可能返回关于同一主题但表述略有差异的段落。
-
精准过滤提取:文档压缩器运用多种技术对输入信息进行处理。一方面,通过文本分类、关键词提取等方法判断信息与问题的相关性,剔除明显无关的内容;另一方面,利用摘要算法,如抽取式摘要或生成式摘要技术,提炼出关键信息。比如对于一个关于 “如何优化电商网站用户体验” 的问题,压缩器会过滤掉电商运营中物流配送等无关信息,提取页面布局优化、交互设计等相关内容。
通过这一系列步骤,RAG 系统能够为后续的生成模型提供精炼、有效的上下文信息,助力生成更准确、有用的回答。
LLMChainExtractor 文档压缩
LLMChainExtractor 借助大语言模型(LLM)的理解和生成能力,对检索到的文本进行分析。它能识别文本中的关键信息片段,依据语言逻辑和语义关联,将重要内容提取出来。它能深入理解文本语义,提取出具有较高价值的信息,适用于各种复杂文本结构的处理。
代码示例
from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma
from langchain.chat_models import ChatOpenAI
from langchain.prompts import PromptTemplate
from langchain.chains.llm import LLMChain
from langchain.retrievers.document_compressors import LLMChainExtractor
from langchain.retrievers import ContextualCompressionRetriever# 加载文档
loader = TextLoader('example.txt', encoding='utf-8')
docs = loader.load()# 分割文档
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
chunks = text_splitter.split_documents(docs)# 创建向量存储
embeddings = HuggingFaceEmbeddings()
vectorstore = Chroma.from_documents(documents=chunks, embedding=embeddings)# 初始化 LLM
llm = ChatOpenAI(temperature=0)# 创建 LLMChain
llm_chain = LLMChain(llm=llm)# 创建 LLMChainExtractor
compressor = LLMChainExtractor(llm_chain=llm_chain)# 创建基础检索器
base_retriever = vectorstore.as_retriever()# 创建 ContextualCompressionRetriever
compression_retriever = ContextualCompressionRetriever(base_compressor=compressor,base_retriever=base_retriever
)# 定义查询
query = "文档中提到的关键要点有哪些?"# 执行检索
results = compression_retriever.get_relevant_documents(query)# 打印结果
for doc in results:print(doc.page_content)
-
LLMChainExtractor:使用
LLMChainExtractor
作为文档压缩器,它将使用 LLMChain 从检索到的文档中提取相关信息。我们的代码中并未定义prompt,所以LLMChainExtractor 将使用默认的prompt 结构,在langchain.retrievers.document_compressors.chain_extract_prompt中定义。我们也可将默认提示词作为参考,自定义文本压缩提示词,默认prompt 如下所示:
# flake8: noqa prompt_template = """Given the following question and context, extract any part of the context *AS IS* that is relevant to answer the question. If none of the context is relevant return {no_output_str}. Remember, *DO NOT* edit the extracted parts of the context.> Question: {{question}} > Context: >>> {{context}} >>> Extracted relevant parts:"""
-
ContextualCompressionRetriever:是 LangChain 框架中用于文档检索的工具,主要功能是在检索文档时对结果进行上下文相关的压缩,以提高检索效率和质量。通过ContextualCompressionRetriever我们可以配置不同的检索器与压缩器,最终在检索时实现文档压缩提取的效果。
LLMChainFilter 文档过滤
LLMChainFilter
是 LangChain 中用于过滤文档的工具,它基于 LLMChain 的结果对文档进行筛选,只有符合特定条件的文档才会被保留。
-
LLMChainFilter
利用LLMChain
来处理文档。LLMChain
由一个语言模型(LLM)和一个提示模板(PromptTemplate)组成。用户提供一个提示模板,其中包含文档内容和一些特定的问题或条件。LLMChain
将文档内容填充到提示模板中,并调用语言模型生成回答。 -
生成的回答会被用于判断文档是否通过过滤。可以根据回答的内容、结构或其他特征来定义过滤条件。例如,可以设置条件为当语言模型生成的回答中包含特定关键词时,文档通过过滤;或者当回答满足某种语义理解,如对某个问题的回答为肯定时,文档通过过滤。
代码示例
from langchain.document_loaders import TextLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.vectorstores import Chroma
from langchain.chat_models import ChatOpenAI
from langchain.prompts import PromptTemplate
from langchain.chains.llm import LLMChain
from langchain.retrievers.document_compressors import LLMChainExtractor
from langchain.retrievers import ContextualCompressionRetriever
from langchain.retrievers.document_compressors import LLMChainFilter# 加载文档
loader = TextLoader('example.txt', encoding='utf-8')
docs = loader.load()# 分割文档
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
chunks = text_splitter.split_documents(docs)# 创建向量存储
embeddings = HuggingFaceEmbeddings()
vectorstore = Chroma.from_documents(documents=chunks, embedding=embeddings)# 初始化 LLM
llm = ChatOpenAI(temperature=0)# 创建用于过滤的 LLMChain
filter_llm_chain = LLMChain(llm=llm)# 创建 LLMChainFilter
filter = LLMChainFilter(llm_chain=filter_llm_chain)# 定义查询
query = "文档中提到的关键技术有哪些?"# 执行检索
docs = retriever.get_relevant_documents(query)# 执行过滤
filtered_docs = filter.compress_documents(docs, query=query)# 打印结果
for doc in filtered_docs:print(doc.page_content)
-
LLMChainFilter:我们使用LLMChainFilter 结合LLM进行文本过滤,用户可以自定义过滤提示词,也可使用LangChain 框架在langchain.retrievers.document_compressors.chain_filter_prompt 中提供的默认提示词,或作为参考:
# flake8: noqa prompt_template = """Given the following question and context, return YES if the context is relevant to the question and NO if it isn't.> Question: {question} > Context: >>> {context} >>> > Relevant (YES / NO):"""
EmbeddingsFilter 向量相似度过滤
EmbeddingsFilter
使用预训练的词嵌入模型或句子嵌入模型,将文本转换为低维向量空间中的向量表示。通过计算这些向量之间的相似度,来判断文本之间的相关性或相似性,进而根据设定的阈值对文本进行过滤。
-
优势
-
高效性:基于向量空间的计算,能够快速计算文本之间的相似度,相比基于文本内容的直接比较,大大提高了过滤的效率,尤其适用于处理大规模文本数据。
-
语义理解能力:预训练的嵌入模型能够捕捉文本的语义信息,因此
EmbeddingsFilter
可以从语义层面判断文本的相关性,而不仅仅是基于表面的词汇匹配,从而提高过滤的准确性。
-
-
局限
-
依赖预训练模型:其性能高度依赖于所使用的预训练嵌入模型的质量和适用性。如果模型不能很好地捕捉文本的语义和句法信息,或者与具体应用场景不匹配,可能会导致过滤效果不佳。
-
缺乏领域适应性:对于一些特定领域的文本,可能需要针对该领域进行专门的模型训练或调整,否则可能无法准确理解领域特定的术语和概念,影响过滤的准确性。
-
难以处理复杂语义关系:虽然能够捕捉一定的语义信息,但对于一些复杂的语义关系和上下文依赖的文本理解,可能存在局限性,无法像人类一样全面、准确地理解文本的含义。
-
代码示例
from langchain.retrievers.document_compressors import EmbeddingsFilter'''对检索到的文档块与查询进行相似度计算,如果相似度大于0.66,则保留该文档块,否则过滤掉'''
embeddings_filter = EmbeddingsFilter(embeddings=embeddings_model, similarity_threshold=0.66)compression_retriever = ContextualCompressionRetriever(base_compressor=embeddings_filter, base_retriever=retriever
)compressed_docs = compression_retriever.invoke("deepseek的发展历程"
)
print("-------------------EmbeddingsFilter压缩后--------------------------")
pretty_print_docs(compressed_docs)
EmbeddingsRedundantFilter 冗余文档过滤
EmbeddingsRedundantFilter
是一种基于嵌入向量的过滤器,用于识别和过滤文本数据中的冗余信息。EmbeddingsRedundantFilter
通过计算文本向量之间的相似度来判断文本是否冗余。常用的相似度计算方法包括余弦相似度、欧式距离等。如果两个文本的向量相似度超过了设定的阈值,就认为它们是冗余的,其中一个文本可能会被过滤掉。
-
优势
-
语义层面的过滤:与基于简单字符串匹配或词频统计的过滤方法不同,
EmbeddingsRedundantFilter
基于文本的嵌入向量进行计算,能够从语义层面理解文本的相似性,更准确地识别真正的冗余信息,即使文本的表述方式有所不同。 -
高效性:借助现代的向量计算库和优化算法,计算文本向量相似度的过程可以高效地进行,能够处理大规模的文本数据,满足实时性要求较高的应用场景。
-
-
局限
-
阈值设定的主观性:确定文本是否冗余的相似度阈值通常需要人工设定,这在一定程度上具有主观性。不同的应用场景和数据特点可能需要不同的阈值,不合适的阈值可能导致过滤效果不佳,要么过滤掉过多有用信息,要么保留了过多冗余信息。
-
对嵌入模型的依赖:其性能高度依赖于所使用的嵌入模型的质量和适用性。如果嵌入模型不能很好地捕捉文本的语义和句法信息,或者与具体应用领域的文本特点不匹配,可能会导致对文本相似性的判断不准确,进而影响冗余过滤的效果。
-
无法处理复杂语义关系:尽管嵌入模型能够捕捉一定的语义信息,但对于一些复杂的语义关系和上下文依赖的文本理解,仍然存在局限性。例如,对于具有隐喻、反讽等修辞手法的文本,或者在特定领域中具有特殊含义的术语,可能无法准确判断其与其他文本的冗余关系。
-
代码示例
from langchain.retrievers.document_compressors import DocumentCompressorPipeline
from langchain_community.document_transformers import EmbeddingsRedundantFilter# 默认文档间相似度超过0.95则为冗余文档
redundant_filter = EmbeddingsRedundantFilter(embeddings=embeddings_model, similarity_threshold=0.95)# 根据问题与文档的相似度过滤
relevant_filter = EmbeddingsFilter(embeddings=embeddings_model, similarity_threshold=0.66)# Transformers转换器 与 compressor压缩器结合
'''
1、通过EmbeddingsRedundantFilter过滤冗余文档
2、通过EmbeddingsFilter过滤与问题相似度低于0.66的文档
'''
pipeline_compressor = DocumentCompressorPipeline(transformers=[redundant_filter, relevant_filter]
)compression_retriever = ContextualCompressionRetriever(base_compressor=pipeline_compressor, base_retriever=retriever
)compressed_docs = compression_retriever.invoke("deepseek的发展历程"
)print("-------------------DocumentCompressorPipeline压缩后--------------------------")
pretty_print_docs(compressed_docs)
-
EmbeddingsRedundantFilter:创建冗余文档过滤器。它使用
embeddings_model
将文档转换为向量表示,并通过计算向量间的相似度来判断文档是否冗余。similarity_threshold=0.95
表示当两个文档向量的相似度超过 0.95 时,就认为这两个文档是冗余的,其中一个文档会被过滤掉。 -
EmbeddingsFilter:向量过滤器。
同样使用embeddings_model
将文档和查询问题转换为向量表示。similarity_threshold=0.66
表示只有当文档向量与查询问题向量的相似度超过 0.66 时,该文档才会被保留,否则会被过滤掉。 -
DocumentCompressorPipeline
:文档压缩管道。将redundant_filter
和relevant_filter
组合成一个处理管道。在处理文档时,会先使用redundant_filter
过滤掉冗余文档,再使用relevant_filter
过滤掉与查询问题相似度低于 0.66 的文档。
总结
压缩器 | 说明 |
---|---|
LLMChainExtractor | 通过 LLM 根据用户查询提取检索的文档内容。 |
LLMChainFilter | 通过 LLM 根据用户查询过滤检索的文档 |
EmbeddingsFilter | 通过向量模型根据用户查询计算文档与问题相似度,过滤低于指定阈值的文档 |
EmbeddingsRedundantFilter | 通过向量模型根据用户查询计算检索文档之间的相似度,过滤高于阈值的文档 |