【NLP】33. Pinecone + OpenAI :构建自定义语义搜索系统

Pinecone + OpenAI 中文教学教程:构建自定义语义搜索系统

一、背景介绍

当下 AI 问答系统、矩阵检索、短文本分类等场景中,都需要很好地实现 “根据输入进行相似给点搜索”。这种算法基础称为 “向量搜索”,它的核心是将文本转换为向量后,在向量空间里搜索最相似的项目。

Pinecone 是一种专业的向量数据库服务,支持高效的向量存储、检索和更新。


二、实验目标

体验 Pinecone 的基础操作:

  1. 建立一个向量索引
  2. 将自定义的文本输入转换为向量并 upsert 到 Pinecone
  3. 输入自然语言问题,搜索最相似文档

示例场景:“动物百科问答” 搜索系统


三、环境准备

pip install -qU \openai==0.27.7 \pinecone==3.0.0 \sentence-transformers==3.4.1 \tqdm

四、设置 API Key

在 Pinecone 和 OpenAI 帐号中获取 API Key,并填入如下代码:

pinecone_api_key = 'your-pinecone-key'
openai_api_key = 'your-openai-key'

五、初始化 Pinecone 并创建索引

import pinecone
pinecone.init(api_key=pinecone_api_key, environment='gcp-starter')index_name = 'custom-animal-db'
if index_name not in pinecone.list_indexes():pinecone.create_index(index_name, dimension=1536)
index = pinecone.Index(index_name)

六、定义自定义文档

documents = [{"id": "doc1", "text": "老虎是一种主要生活在亚洲的肉食动物"},{"id": "doc2", "text": "大象是陆地上最大的动物,有长鼻和大耳朵"},{"id": "doc3", "text": "保龄羊是生活在欧洲高原的羊类动物"},{"id": "doc4", "text": "老鼠是一种常见小型动物,有很强的生存力"}
]

七、使用 OpenAI 生成向量

import openai
openai.api_key = openai_api_keydef get_embedding(text):resp = openai.Embedding.create(input=text,model="text-embedding-ada-002")return resp['data'][0]['embedding']

八、将文档向量化并 upsert 到 Pinecone

for doc in documents:vec = get_embedding(doc['text'])index.upsert([(doc['id'], vec, {"text": doc['text']})])

九、进行搜索:按問题返回相似给点

query = "哪些动物有长鼻或低温生存力强?"
query_vec = get_embedding(query)result = index.query(vector=query_vec, top_k=2, include_metadata=True)for match in result["matches"]:print(f"Score: {match['score']:.2f}, Text: {match['metadata']['text']}")

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/80181.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Mybatis-plus常用语法】

MyBatis-Plus 是 MyBatis 的增强工具,提供了很多便捷的功能来简化开发。以下是一些 MyBatis-Plus 的常见语法: 实体类注解:使用 TableName 注解来指定实体类和数据库表的映射关系。 TableName("user") public class User {privat…

Logback官方文档翻译章节目录

Logback官方文档翻译章节目录 第一章 Logback简介 第二章 Logback的架构(一) Logback的架构(二) Logback的架构(三) 持续更新中…

Python变量作用域

变量作用域是Python编程中非常重要的基础概念,理解它可以帮助你避免很多常见的错误。本文将用简单易懂的方式,带你全面掌握Python变量作用域的所有细节。 一、什么是变量作用域? 变量作用域(Scope)指的是变量在程序中…

初学者的AI智能体课程:构建AI智能体的十堂课

初学者的AI智能体课程:构建AI智能体的十堂课 在人工智能(AI)领域,AI智能体正在逐渐发挥其不容忽视的作用。自动化的智能体不仅仅在理论上广泛讨论,更加在实际应用中开辟了一片新的天地。那么如何动手开发属于自己的AI智能体呢?Microsoft提供的AI智能体入门课正是为此而设…

【并发编程】MySQL锁及单机锁实现

目录 一、MySQL锁机制 1.1 按锁粒度划分 1.2 按锁功能划分 1.3 InnoDB锁实现机制 (1)记录锁(Record Lock) (2) 间隙锁(Gap Lock) (3) 临键锁(Next-Key Lock) (4) 插入意向锁(Insert Intention Lock) 二、基于 JVM 本地锁实现,保证线程安全 2.1 线程不安全的分析 2.1…

能耗优化新引擎:EIOT平台助力企业降本增效

安科瑞顾强 数字化转型的背景下,能源管理正加速向智能化、远程化方向演进。安科瑞电气推出的EIOT托管平台及ADW300系列4G无线计量仪表,通过云端技术与无线通信的深度融合,为用户打造了高效、便捷的远程能源监测与管理体系,助力企…

(14)Element Plus项目综合案例

本系列教程目录:Vue3Element Plus全套学习笔记-目录大纲 文章目录 第3章 综合案例3.1 搭建项目3.1.1 创建Vite工程3.1.2 配置路由 3.2 登录模块页面3.2.1 注册页面3.2.2 登录页面3.2.3 忘记密码页面 3.3 导航设置3.3.1 头部3.3.2 侧边栏与底部1)头像部分…

Webug4.0靶场通关笔记22- 第27关文件包含

目录 一、文件包含 1、原理分析 2、文件包含函数 (1)include( ) (2)include_once( ) (3)require( ) (4)require_once( ) 二、第27关渗透实战 1、打开靶场 2、源码分析 3、…

〖 Linux 〗解决 VS Code 远程连接服务器的常见问题

文章目录 解决 VS Code 远程连接服务器的断开问题VS Code Remote-SSH一直弹出输入密码的问题VsCode C 语法检测失效不标红色波浪线 解决办法卸载扩展方式: 解决vscode C智能提示缓慢 解决 VS Code 远程连接服务器的断开问题 解决 vscode 卡顿,卡死&…

ERC-20与ERC-721:区块链代币标准的双星解析

一、代币标准的诞生背景 在以太坊生态中,代币标准是构建去中心化应用(DApps)的基石。ERC-20与ERC-721分别代表同质化与非同质化代币的两大核心标准,前者支撑着90%以上的加密资产流通,后者则开启了数字资产唯一性的新时…

C++入门小馆 :多态

嘿,各位技术潮人!好久不见甚是想念。生活就像一场奇妙冒险,而编程就是那把超酷的万能钥匙。此刻,阳光洒在键盘上,灵感在指尖跳跃,让我们抛开一切束缚,给平淡日子加点料,注入满满的pa…

【NextPilot日志移植】整体功能概要

整体日志系统的实现功能 该日志系统主要实现了飞行日志的记录功能,支持多种日志记录模式,可将日志存储到文件或通过 MAVLink 协议传输,同时具备日志加密、空间管理、事件记录等功能。具体如下: 日志记录模式:支持按武…

数字化转型:概念性名词浅谈(第二十五讲)

大家好,今天接着介绍数字化转型的概念性名词系列。 (1)SOP(标准作业程序) 标准作业程序(Standard Operating Procedure, SOPs)是在有限时间与资源内,为了执行复杂的日常事务所设计的内部程序。从管理学的…

交叉编译 opencv-4.10

编译说明 opencv 下包含很多模块,各个模块的作用可以参考Opencv—模块概览. 嵌入式考虑有限存储等因素会对模块进行裁剪,我这里主要保留图像拼接(stitching)图片编解码(imgcodecs)与特征点匹配&#xff08…

Python cv2对象检测与跟踪:从基础到进阶实战

在计算机视觉领域,对象检测(定位目标位置)与对象跟踪(持续追踪目标运动)是视频分析、自动驾驶、智能监控等应用的核心技术。本文将结合OpenCV的cv2库,系统讲解其原理与Python实现方法。 一、对象检测 vs 对…

亚马逊推出新型仓储机器人 Vulcan:具备“触觉”但不会取代人类工人

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

缓存套餐-03.功能测试

一.功能测试 点击小程序,就会触发根据分类id查询套餐方法,根据分类id查询套餐。 第一次查询,redis中没有数据,就会发sql进行sql数据库查询。 redis当中就有了对应的缓存。 再次点击,发现sql根本没有执行,…

WebFlux与HttpStreamable关系解析

1-Streamable 1-WebFlux与HttpStreamable关系解析2-MCP协议Streamable HTTP 2-参考网址 MCP协议Streamable HTTPMCP协议重大升级,Spring AI Alibaba联合Higress发布业界首个Streamable HTTP实现方案 3-WebFlux与HttpStreamable关系解析 WebFlux 和 HttpStreamabl…

顺丰科技:从 Presto 到 Doris 湖仓构架升级,提速 3 倍,降本 48%

导读:顺丰科技引入 Doris 替换 Presto,在内部可视化数据自助分析工具丰景台场景广泛应用。目前,顺丰临时查询业务、丰景台报表业务的 Presto 场景已经 100% 切换到 Doris 集群中,日均查询量 100W。并实现 P95 性能提升近 3 倍&…

如何在Jmeter中调用C程序?

在JMeter中调用C语言程序可以通过以下几种方式实现: 方法一:使用OS Process Sampler JMeter的“OS Process Sampler”可以用来调用外部程序,包括C语言编写的可执行文件。 步骤: 准备C语言程序: 编写C语言代码并编译…