大语言模型学习--向量数据库基础知识

1.向量

向量是多维数据空间中的一个坐标点。

向量类型

图像向量 文本向量  语音向量

Embedding

非结构化数据转换为向量过程

通过深度学习训练,将真实世界离散数据,投影到高维数据空间上,通过数据在空间中间的距离体现真实世界的相似度

Vector Embedding 向量嵌入

将非数值词语符号等非结构化数据编码成数值向量

Word Embedding 词嵌入

通过NN学习,文本中词语作为NN输入,输出对应词向量 Word Vector。词向量是一个数值向量,每个数值代表词语的某个特征

向量的每个数值表示某个特征,只要向量足够大,特征区分足够明显

2.向量数据库

向量数据库为向量数据提供专用的存储和索引机制

向量数据被存储为高维空间中的点

向量数据库发展阶段

向量存储类型

1.私域知识 Domain Knowledge

可以把向量数据库作为大模型的外挂知识库

2.本地存储 Local Storage

将向量数据存储到本地

3.长期记忆 Long Time Storage

大模型具有短期记忆,具有上下文信息数量限制。

向量数据库作为外部数据库 存储单次上传的超大文本 对外内容等信息,为大模型提供理论上没有上限的长期记忆

向量数据库作用

1.相似性搜索

根据向量距离或相似性对向量数据进行快速准确的相似性搜索,即可以根据语义或者上下文含义查找最相似或相关的数据

2.提升性能

相似度计算 相似性搜索 高效存储 分布式

向量数据库评价指标

1.准确率   

检索相关的向量/检索出向量总数

2.召回率

检索相关的向量/向量数据中相关的向量总数

3.每秒平均吞吐

每秒向量数据库能够处理的查询请求次数

4.平均响应延迟

请求平均响应时间

向量相似度计算

向量索引

向量数据库索引分类

按照数据结构

哈希索引

树索引

图索引

倒排文件索引

按照量化压缩

相似性搜索算法

向量数据量应用场景

图像相似性搜索

视频相似性搜索

音频相似性搜索

推荐系统

问答系统

混合搜索系统

大模型与向量数据库

当前主流向量数据库

2024年精选推荐的16个向量数据库:提升你的AI应用性能-CSDN博客

相关学习资料

三天搞定【大模型系列】之向量数据库教程(搭建、原理、实战)_哔哩哔哩_bilibili

【上集】向量数据库技术鉴赏_哔哩哔哩_bilibili

【下集】向量数据库技术鉴赏_哔哩哔哩_bilibili

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/71961.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

项目工坊 | Python驱动淘宝信息爬虫

目录 前言 1 完整代码 2 代码解读 2.1 导入模块 2.2 定义 TaoBao 类 2.3 search_infor_price_from_web 方法 2.3.1 获取下载路径 2.3.2 设置浏览器选项 2.3.3 反爬虫处理 2.3.4 启动浏览器 2.3.5 修改浏览器属性 2.3.6 设置下载行为 2.3.7 打开淘宝登录页面 2.3.…

蓝桥杯题型

蓝桥杯 蓝桥杯题型分类语法基础艺术与篮球(日期问题)时间显示(时间问题)跑步计划(日期问题)偶串(字符)最长子序列(字符)字母数(进制转换)6个0&…

【C语言】文件操作篇

目录 文件的基本概念文本文件和二进制文件的差异 文件指针FILE 结构体文件指针的初始化和赋值 文件打开与关闭常见操作文件的打开文件的关闭 常见问题打开文件时的路径问题打开文件失败的常见原因fclose 函数的重要性 文件读写操作常见操作字符读写字符串读写格式化读写二进制读…

【leetcode hot 100 21】合并两个有序链表

解法一:新建一个链表存放有序的合并链表。当list1和list2至少有一个非空时,返回非空的;否则找出两个链表的最小值作为新链表的头,然后依次比较两链表,每次都先插入小的值。 /*** Definition for singly-linked list.*…

Ubuntu 24.04.2 安装 PostgreSQL 16 、PostGIS 3

安装 PostgreSQL 16 apt install postgresql-16passwd postgres,修改 postgres 用户密码su postgrespsql -U postgres, 以 postgres 的身份登录数据库alter user postgres with password abc123;\q 退出/etc/postgresql/16/main/postgresql.conf 可修改 #listen_ad…

Spring Boot框架总结(超级详细)

前言 本篇文章包含Springboot配置文件解释、热部署、自动装配原理源码级剖析、内嵌tomcat源码级剖析、缓存深入、多环境部署等等,如果能耐心看完,想必会有不少收获。 一、Spring Boot基础应用 Spring Boot特征 概念: 约定优于配置&#…

postgresql14编译安装脚本

#!/bin/bash####################################readme################################### #先上传postgresql源码包,再配置yum源,然后执行脚本 #备份官方yum源配置文件: #cp /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS…

AI开发利器:miniforge3无感平替Anaconda3

相信有和我遭遇一样的同学吧,之前装了anaconda用的挺好的(可以参考AI开发利器:Anaconda),但是考虑到有可能收到软件侵权的律师函的风险,还是果断找个替代品把anaconda卸载掉。miniforge就是在这样的背景下发…

Reactor中的Flux和Mono的区别

Reactor中的Flux和Mono的区别 在Reactor框架中,Flux 和 Mono 是两个核心的类型,分别用于处理不同的数据流场景。理解它们之间的区别是掌握响应式编程的关键。 1. 基本概念 Flux: 表示一个异步、非阻塞的流,能够发布零个或多个元素。它适用于…

AI-NAS:当存储遇上智能,开启数据管理新纪元

在数据爆炸的时代,NAS(网络附加存储)已成为个人和企业存储海量数据的利器。然而,面对日益庞大的数据量,传统的NAS系统在文件管理和搜索效率上逐渐力不从心。AI-NAS应运而生,它将NAS与人工智能(A…

用 Vue 3.5 TypeScript 做了一个日期选择器(改进版)

上一篇 已经实现了一个日期选择器&#xff0c;只不过是模态窗的形式&#xff0c;这个版本改为文本框弹出&#xff0c;点击空白处可关闭日历 代码也增加了不少 <template><div><!-- 添加文本框 --><div class"date-picker-input-wrapper">&l…

【09】单片机编程核心技巧:变量赋值,从定义到存储的底层逻辑

【09】单片机编程核心技巧&#xff1a;变量赋值&#xff0c;从定义到存储的底层逻辑 &#x1f31f; 核心概念 单片机变量的定义与赋值是程序设计的基础&#xff0c;其本质是通过 RAM&#xff08;随机存储器&#xff09; 和 ROM&#xff08;只读存储器&#xff09; 的协作实现…

【爬虫】开篇词

一、网络爬虫概述 二、网络爬虫的应用场景 三、爬虫的痛点 四、需要掌握哪些技术&#xff1f; 在这个信息爆炸的时代&#xff0c;如何高效地获取和处理海量数据成为一项核心技能。无论是数据分析、商业情报、学术研究&#xff0c;还是人工智能训练&#xff0c;网络爬虫&…

文字转语音chat-tts-ui

去年已经使用过chattts了&#xff0c;但是昨晚想用的时候却记怎么打开了&#xff0c;找了一下以前的笔记 MacOS 下源码部署chat-tts-ui 配置好 python3.9-3.11 环境,安装git &#xff0c;执行命令 brew install libsndfile git python3.10 继续执行 brew install ffmpeg ​ …

基于SpringBoot+Vue的瑜伽课体验课预约系统【附源码】

基于SpringBootVue的瑜伽课体验课预约系统 一、系统技术说明二、运行说明三、系统的演示四、系统的核心代码演示 一、系统技术说明 框架&#xff1a;SpringbootVue 数据库&#xff1a;mysql 5.7&#xff08;一定要5.7版本&#xff09; 数据库工具&#xff1a;Navicat11 开发软…

sparkTTS window 安装

SparkTTS 的简介 Spark-TTS是一种基于SpardAudio团队提出的 BiCodec 构建的新系统&#xff0c;BiCodec 是一种单流语音编解码器&#xff0c;可将语音策略性地分解为两种互补的标记类型&#xff1a;用于语言内容的低比特率语义标记和用于说话者特定属性的固定长度全局标记。这种…

从零开始:使用 Python 实现机器学习的基础与实践

文章大纲&#xff1a; 引言 机器学习的定义与应用场景。Python 在机器学习领域的优势。本文目标&#xff1a;通过 Python 实现一个简单的机器学习项目。 环境准备 安装 Python 和必要的库&#xff08;如 NumPy、Pandas、Scikit-learn&#xff09;。使用 Jupyter Notebook 或 V…

ApoorvCTF Rust语言逆向实战

上周参加了国外的比赛&#xff0c;名称叫&#xff1a;ApoorvCTF 看一下老外的比赛跟我们有什么不同&#xff0c;然后我根据国内比赛对比发现&#xff0c;他们考点还是很有意思的&#xff0c;反正都是逆向&#xff0c;哈哈哈 Rusty Vault 题目描述&#xff1a; In the heart…

Git和GitHub基础教学

文章目录 1. 前言2. 历史3. 下载安装Git3.1 下载Git3.2 安装Git3.3 验证安装是否成功 4. 配置Git5. Git基础使用5.1 通过Git Bash使用5.1.1 创建一个新的仓库。5.1.1.1 克隆别人的仓库5.1.1.2 自己创建一个本地仓库 5.1.2 管理存档 5.2 通过Visual Studio Code使用 6. Git完成远…

MySQL中like模糊查询如何优化?

大家好&#xff0c;我是锋哥。今天分享关于【MySQL中like模糊查询如何优化?】面试题。希望对大家有帮助&#xff1b; MySQL中like模糊查询如何优化? 1000道 互联网大厂Java工程师 精选面试题-Java资源分享网 在 MySQL 中&#xff0c;LIKE 模糊查询虽然非常常见&#xff0c;…