OpenAI Embedding 和密集检索(如 BERT/DPR)进行语义相似度搜索有什么区别和联系

OpenAI Embedding 和密集检索(如 BERT/DPR)其实是“同一种思想的不同实现”,它们都属于Dense Retrieval(密集向量检索),只不过使用的模型、部署方式和调用方式不同。


🧠 首先搞清楚:什么是“密集检索”?

只要满足这两个条件,就叫“密集检索”:

  1. 文本(问题、文档)转成高维向量
  2. 用**向量相似度(如余弦、内积)**来进行匹配,而不是关键词匹配

✅ 所以:

  • BERTDPR 本地生成 embedding,然后用 faiss 检索 → 属于密集检索
  • OpenAI 的 embedding API(比如 text-embedding-3-small)生成 embedding,然后在本地或云上检索 → 也属于密集检索

它们只是实现方式不同,但原理一模一样


🔍 二者的主要区别对比如下:

特性BERT / DPR 本地部署OpenAI Embedding
模型来源开源(如 sentence-transformers商业闭源(OpenAI API)
运行方式本地运行模型(CPU/GPU)调用 API(联网)
embedding 大小常见是 384 或 768 维最新的 text-embedding-3-small 是 1536 维
质量与泛化开源模型精度不错,但略低于 GPT embeddingOpenAI embedding 训练在海量数据上,质量非常高
响应速度本地部署后很快受限于网络,API 请求有延迟
成本免费(但你需要 GPU 资源)收费(按 token 计费)
可控性可调参、微调不可修改,只能用 API 提供的模型
语言支持中文模型支持不一OpenAI embedding 对中文支持也很好

🔁 联系:可以互换使用

你可以用 OpenAI embedding 替代 BERT 向量来做密集检索流程:

👇 流程一致:

  1. 对“问题”和所有“文档”做 embedding(向量化)
  2. 把所有文档向量存进 FAISS / Elasticsearch 向量索引
  3. 用户提问 → 向量化 → 相似度查找 → 返回最相关内容

📦 只是你用的是:

  • OpenAI 提供的嵌入服务(云计算 + 高质量模型)
  • 而不是本地 BERT 模型(开源、可自定义)

🎯 举个例子(OpenAI embedding 检索流程):

from openai import OpenAI
import faiss
import numpy as npclient = OpenAI(api_key="你的 key")# 文档库
texts = ["苹果是一种水果", "小米是一家公司", "香蕉富含钾"]# 批量生成文档向量
def get_embedding(text):response = client.embeddings.create(input=text,model="text-embedding-3-small")return response.data[0].embeddingdoc_embeddings = [get_embedding(t) for t in texts]
dimension = len(doc_embeddings[0])
index = faiss.IndexFlatL2(dimension)
index.add(np.array(doc_embeddings))# 用户查询
query = "香蕉的营养成分有哪些?"
query_embedding = np.array([get_embedding(query)])# 搜索
D, I = index.search(query_embedding, k=2)
for idx in I[0]:print("Top Match:", texts[idx])

🧠 总结一下:

对比点密集检索(BERT/DPR)OpenAI Embedding 检索
属于什么都属于 Dense Retrieval
本质做什么都是文本→向量→向量相似度匹配
区别使用的模型来源不同(开源 vs 商业 API)
联系可以完全互换,流程一致,只是底层模型不同

如果你关心“什么时候该用哪个?”:

  • 快速开发、效果为主、不介意花点钱 → 用 OpenAI embedding,更稳更省心
  • 要部署在内网、模型可控、避免外网 API → 用本地 BERT / DPR
  • 做中文检索或问答 → 可以试试 shibing624/text2vec-base-chinesebge-small-zh

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/903468.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux电源管理(3)_关机和重启的过程

原文:Linux电源管理(3)_Generic PM之重新启动过程 1.前言 在使用计算机的过程中,关机和重启是最先学会的两个操作。同样,这两个操作在Linux中也存在,可以关机和重启。这就是这里要描述的对象。在Linux Ke…

C# 继承详解

继承是面向对象程序设计(OOP)中的核心概念之一,它极大地增强了代码的重用性、扩展性和维护性。本篇文章将详细讲解C#中的继承机制,包括基础概念、语法特法、多重继承(通过接口实现)、继承的规则和实际应用示…

SQLAlchemy 2.x 异步查询方法比较

SQLAlchemy 2.x 异步查询中常用的 结果处理方法速查表,包含方法说明、使用场景、返回类型及典型用途。 SQLAlchemy 查询结果处理方法速查表(适用于 AsyncSession) 方法 说明 返回类型 示例 SQL 示例输出 scalars().all() 获取单列所有…

极客天成参与”AI助力智慧城市构建”主题演讲暨招商引智专题推介活动

4月7日下午,北京极客天成科技有限公司参加了天津市河东区数据局举办的“AI赋能智慧城市构建”主题演讲暨招商引智专题推介活动。 活动中,华为(天津)有限公司数字政府解决方案总监姜华庚围绕“政务大模型赋能智慧城市建设”&#x…

理解 EKS CloudWatch Pod CPU Utilization 指标:与 `kubectl top` 及节点 CPU 的关系

在使用 AWS EKS 时,CloudWatch Container Insights 提供了丰富的容器级别监控指标,帮助我们深入了解应用的运行状态。如下截图中的 ContainerInsights pod_cpu_utilization 指标就是一个非常重要的维度。本文将详细解释这个指标的含义,并将其…

使用pip3安装软件包报错`externally-managed-environment`的几种解决方式

1、pip3安装软件包报错 报错externally-managed-environment的原因: 从 Python 3.11 开始引入了 PEP 668 规范,该规范限制了在系统级 Python 环境中使用 pip 安装第三方包,以避免与系统包管理器(如 apt)产生冲突。 如…

spring security用户退出

Spring security默认实现了用户退出的功能,用户退出主要考虑退出后会话如何管理以及跳转到哪个页面。HttpSecurity类提供了logout()方法开启退出登录的支持,默认触发用户退出操作的URL为“/logout”,用户退出时同时也会清除Session等默认用户…

爱普生SG2520HHN晶振数据中心服务器的理想解决方案

在当今数字化时代,数据中心作为海量数据存储、处理与传输的核心枢纽,其服务器的高效稳定运行至关重要。服务器作为其核心设备,对时钟信号的精度和稳定性提出了严苛要求——微小的时序误差可能导致数据传输失败或系统宕机。爱普生 SG2520HHN 差…

LeetCode 155题解 | 最小栈

最小栈 一、题目链接二、题目三、算法原理思路1:用一个变量存储最小元素思路2:双栈普通栈和最小栈 四、编写代码五、时间复杂度 一、题目链接 最小栈 二、题目 三、算法原理 栈用数组、链表实现都行,最主要的就是在能在常数时间内检索到最…

es+kibana---集群部署

其实一般es要跑3个节点的,这样才能做高可用,处理并发大,但是我这里只是一个pod mkdir -p /stroe/data/es es搭建: #【拉取镜像】 #docker pull elasticsearch:6.8.7 #docker pull busybox:1.28 【导入镜像】 docker load -i es.…

WPF常用技巧汇总 - Part 2

WPF常用技巧汇总-CSDN博客 主要用于记录工作中发现的一些问题和常见的解决方法。 目录 WPF常用技巧汇总-CSDN博客 1. DataGrid Tooltip - Multiple 2. DataGrid Tooltip - Cell值和ToolTip值一样 3. DataGrid Tooltip - Cell值和ToolTip值不一样 4. DataGrid - Ctrl A /…

uniapp打包apk如何实现版本更新

我们做的比较简单,在后端设置版本号,并在uniapp的config.js中定义版本号,每次跟后端的进行对比,不一致的话就更新。 一、下载apk 主要代码(下载安装包,并进行安装,一般得手动同意安装&#xf…

局部和整体的关系

Prompt:为什么要研究局部和整体的关系呢?是因为很多情况下,局部就能表达出整体? 这是一个非常本质的问题,其实你已经接近数学和物理中“几何本质”的核心了。我们研究局部和整体的关系,是因为:…

企业办公协同平台安全一体化生态入住技术架构与接口标准分析报告

全球组织数字化与智能化背景下 企业办公协同平台安全一体化生态入住技术架构与接口标准分析报告 一、背景与市场需求 市场规模与增量 根据Statista数据,全球协同办公平台市场规模预计从2023年的$480亿增长至2027年的$900亿,年复合增长率(CAG…

【2025最新面试八股常问知识点】HTTP1.0,HTTP1.1,HTTP2.0,HTTP3.0,HTTP的进化之路。

HTTP 超文本传输协议(英文:HyperText Transfer Protocol,缩写:HTTP)是一种用于分布式、协作式和超媒体信息系统的应用层协议。设计HTTP最初的目的是为了提供一种发布和接收HTML页面的方法。通过HTTP或者HTTPS协议请求的…

【算法练习】归并排序和归并分治

文章目录 1.归并排序1.1 递归版本1.2 非递归版本 2.归并分治2.1 计算数组的小和2.2 计算翻转对 1.归并排序 归并排序的核心步骤是: 拆分:将无序数组不断对半拆分成小块,直到每个小块只剩一个元素(自然有序)。 合并&a…

域对齐是什么

域对齐(Domain Alignment)是在机器学习和计算机视觉等领域中常用的技术 定义 域对齐旨在将不同域(Domain)的数据映射到一个共同的特征空间中,使得来自不同域的数据在该空间中具有相似的分布。这里的“域”可以指代不…

【linux】git安装、升级

git安装、升级 一、快捷安装版本2.18.0二、自定义版本安装(安装、升级)1、移除旧文件2、安装所需依赖3、选择指定版本4、解压文件、编译5、增加环境变量,验证是否版本 三、升级 一、快捷安装版本2.18.0 yum install git git --version二、自…

编程日志4.24

栈的链表基础表示结构 #include<iostream> #include<stdexcept> using namespace std; //模板声明&#xff0c;表明Stack类是一个通用的模板&#xff0c;可以用于存储任何类型的元素T template<typename T> //栈的声明 //Stack类的声明&#xff0c;表示一…

《冰雪传奇点卡版》:探索冰雪世界的传奇旅程!

《冰雪传奇点卡版》以“纯净打金”为核心&#xff0c;摒弃复杂付费坑&#xff0c;回归经典传奇玩法。以下从核心玩法、资源获取、职业搭配、交易变现四维度展开&#xff0c;助你高效开启冰雪传奇之旅。 一、核玩法解析&#xff1a;如何高效获取资源&#xff1f; 1. 职业定位与…