向量检索是整个RAG管道的一个重要的步骤,传统的暴力最近邻搜索因为计算成本太高,扩展性差等无法应对大规模的搜索。
HNSW(Hierarchical Navigable Small World,分层可导航小世界图)提供了一种对数时间复杂度的近似搜索方案。查询时间却缩短到原来的1/10,我们今天就来介绍HNSW算法。
传统搜索方法在高纬度下会崩溃,并且最近邻搜索(NNS)的线性时间复杂度让成本变得不可控。HNSW图的出现改变了搜索的方式。它能在数十亿向量上实现对数复杂度的实时检索。但大多数工程师只是把它当黑盒用,调调
efSearch
和
M
参数,并不真正理解为什么它这么快,也不知道如何针对具体场景做优化。
https://avoid.overfit.cn/post/6e8a792fb0eb4f4ab911cce7f3e98644