【Machine Learning Q and AI 读书笔记】- 01 嵌入、潜空间和表征

Machine Learning Q and AI 中文译名 大模型技术30讲,主要总结了大模型相关的技术要点,结合学术和工程化,对LLM从业者来说,是一份非常好的学习实践技术地图.

本文是Machine Learning Q and AI 读书笔记的第1篇,对应原书第一章 《嵌入、潜空间和表征》.


TL;DR

本文介绍嵌入向量表征,和潜空间这些概念, 核心是嵌入向量.

术语

  • 嵌入向量(Embedding Vector)
  • 表征 (Representations)
  • 潜空间 (Latent Space)

嵌入向量 (Embeddings)

Embedding vectors, or embeddings for short, encode relatively high-dimensional data into relatively low-dimensional vectors.

embedding

嵌入向量,是把高维的数据通过encode的方法,转换成低维的向量. 如果有BERT使用经验,会第一反应,embedding vector算是低维吗,BERT输出的向量是有768维的. 弄清这个问题,我们可以借助AI

实际上,高维和低维的转换取决于具体的应用场景和目标。下面我来详细解释一下为什么会有这种“低维嵌入”的说法,以及它和高维映射的区别。

1. 为什么要把数据编码成低维向量?

在机器学习和数据处理中,数据往往具有很高的维度。例如,一张图片可能有数百万个像素,每个像素是一个维度;一个文本数据可能包含成千上万个单词或字符,每个单词或字符也可以看作一个维度。这种高维数据在实际处理中会面临很多问题:

  • 计算复杂度高:高维数据的处理需要大量的计算资源,尤其是在进行复杂的数学运算(如矩阵乘法、优化算法等)时。
  • 存储成本高:高维数据需要占用大量的存储空间。
  • “维度灾难”:随着维度的增加,数据的稀疏性会变得非常严重,即数据点在高维空间中变得非常分散,很难找到有效的模式或规律。

为了解决这些问题,我们通常会将高维数据映射到低维空间,这就是所谓的“嵌入”(embedding)。通过嵌入,我们可以保留数据的重要特征,同时减少计算和存储成本,并且更容易发现数据中的模式。

2. 嵌入是如何工作的?

嵌入的目的是将数据从一个高维空间映射到一个低维空间,同时尽量保留原始数据的结构和语义信息。例如:

  • 文本嵌入:在自然语言处理中,每个单词可以被表示为一个高维的独热编码(one-hot encoding),其维度等于词汇表的大小。但这种表示方式维度很高且稀疏。通过嵌入技术(如Word2Vec、GloVe等),可以将每个单词映射到一个低维的稠密向量空间中,这些低维向量能够更好地捕捉单词之间的语义关系。
  • 图像嵌入:在计算机视觉中,一张图片可以被表示为一个高维的像素矩阵。通过卷积神经网络(CNN)等技术,可以将图片映射到一个低维的特征空间,这些特征向量能够更好地表示图片的语义内容(如物体类别、场景等)。

3. 为什么不是映射到高维空间?

你提到的“映射到高维空间”也有其应用场景,比如在某些核方法(kernel methods)中,会将数据映射到一个更高维的特征空间,以便更好地处理非线性关系。但这种高维映射通常是为了找到更好的特征表示,而不是为了减少维度。例如:

  • 核方法:通过核函数将数据映射到一个高维的希尔伯特空间,在这个空间中,数据可能更容易被线性分割。但这种高维空间通常是隐式的,我们并不直接计算高维空间中的坐标,而是通过核函数来计算高维空间中的内积,从而避免了高维空间带来的计算复杂度问题。

4. 总结

  • 低维嵌入:是为了减少数据的维度,降低计算和存储成本,同时保留数据的重要特征和语义信息。这是数据预处理和特征工程中的一个重要步骤,广泛应用于自然语言处理、计算机视觉等领域。
  • 高维映射(如核方法):是为了更好地处理非线性关系,通过映射到高维空间来找到更好的特征表示,但这种高维空间通常是隐式的,不会直接计算高维坐标。

潜空间

潜空间和嵌入空间是同义词

表征

原文的表征表述太简洁了,这里做一下补充。

在机器学习领域,“表征”(Representation)是指数据的表示形式或编码方式。它描述了如何将原始数据转换为机器学习模型可以理解和处理的形式。表征的质量直接影响模型的性能,因为好的表征能够更好地捕捉数据中的关键特征和模式。

1. 表征的重要性

在机器学习中,数据的表征决定了模型能够学习到的信息。如果表征能够有效地捕捉数据中的重要特征,模型就更容易学习到有用的模式;反之,如果表征不佳,即使模型再复杂,也可能无法取得好的效果。因此,表征学习(Representation Learning)是机器学习中的一个重要研究方向。

2. 表征的类型

表征可以有不同的形式,具体取决于数据的类型和应用场景。以下是一些常见的表征方式:

(1)数值表征
  • 连续数值:对于数值型数据(如温度、价格等),可以直接使用其原始数值作为表征。
  • 离散数值:对于离散型数据(如类别标签),可以使用独热编码(One-Hot Encoding)或整数编码(Integer Encoding)等方式将其转换为数值形式。
(2)文本表征
  • 词嵌入(Word Embedding):将单词或短语映射到低维向量空间中,常见的方法有Word2Vec、GloVe和BERT等。这些嵌入向量能够捕捉单词之间的语义关系。
  • 文本序列:将文本表示为单词或字符的序列,例如在自然语言处理中,可以将句子表示为单词的序列,或者将文档表示为句子的序列。
(3)图像表征
  • 像素表征:将图像表示为像素矩阵,每个像素的值可以是灰度值或RGB值。
  • 特征提取:通过卷积神经网络(CNN)等方法提取图像的高级特征,将图像表示为特征向量。这些特征向量能够更好地捕捉图像的语义内容。
(4)图结构表征
  • 节点嵌入(Node Embedding):将图中的节点映射到低维向量空间中,常见的方法有Node2Vec、DeepWalk等。这些嵌入向量能够捕捉节点之间的结构关系。
  • 图嵌入(Graph Embedding):将整个图映射到低维向量空间中,用于图分类、图匹配等任务。
3. 表征学习

表征学习是指自动学习数据的有效表征,而不是手动设计表征。这是深度学习的核心思想之一。例如:

  • 自编码器(Autoencoder):通过编码器将输入数据压缩为低维表征,然后通过解码器重建输入数据。编码器的输出就是数据的低维表征。
  • 卷积神经网络(CNN):通过卷积层和池化层提取图像的特征,这些特征就是图像的表征。
  • Transformer架构:通过自注意力机制学习文本的上下文表征,BERT和GPT等模型都是基于Transformer架构的。
4. 好的表征应该具备哪些特性?

好的表征应该能够满足以下条件:

  • 信息保留:能够保留原始数据中的关键信息。
  • 低冗余:表征中的特征应该是独立的,避免冗余信息。
  • 可解释性:表征的含义应该是可解释的,便于理解和分析。
  • 泛化能力:表征应该能够泛化到新的数据上,而不仅仅是拟合训练数据。
5. 总结

表征是机器学习中的一个核心概念,它决定了数据如何被模型理解和处理。通过有效的表征学习,我们可以将复杂的数据转换为模型更容易处理的形式,从而提高模型的性能。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/81464.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Flutter 学习之旅 之 Flutter 和 Android 原生 实现数据交互的MethodChanel和EventChannel方式的简单整理

Flutter 学习之旅 之 Flutter 和 Android 原生 实现数据交互的MethodChanel和EventChannel方式的简单整理 目录 Flutter 学习之旅 之 Flutter 和 Android 原生 实现数据交互的MethodChanel和EventChannel方式的简单整理 一、简单介绍 二、Flutter 和 Android 原生之间的数据…

outlook for mac本地邮件存放在哪儿?

尽管 PST 格式通常与 Microsoft Outlook 联系在一起,但认为它也在 Mac OS 上存储邮箱数据是一种误解。实际上,Outlook for Mac 不会将邮件存储为 PST 文件。无法在 Outlook for Mac 中找到 PST 文件位置,因为它不使用 PST 文件来存储邮箱数据…

数字时代,如何为个人信息与隐私筑牢安全防线?

首席数据官高鹏律师团队编著 在当今数字化时代,个人信息和隐私保护至关重要。我们在享受数字生活带来的便利时,也面临着个人信息泄露、隐私被侵犯的风险。下面将从先进技术和法律途径两个方面,探讨如何严格保护个人信息和隐私。 一、先进技…

MongoDB的图形化工具robo3t,navicat

MongoDB 常用的两个图形化工具 —— Robo 3T 和 Navicat 的详细介绍、区别和基本使用方法: 🧰 一、Robo 3T(原 Robomongo) 📌 简介 Robo 3T 是一款专注于 MongoDB 的轻量级可视化客户端。由原 Robomongo 团队开发&am…

Qt QWebEngine应用和网页的交互

一、QWebEngine简介 1、Qt WebEngine模块提供了一个Web浏览器引擎,可以轻松地将万维网上的内容嵌入到没有本机Web引擎的平台上的Qt应用程序中。 2、Qt WebEngine提供了用于渲染HTML,XHTML和SVG文档的C 类和QML类型,它们使用级联样式表&#…

d202552-sql

一、184. 部门工资最高的员工 - 力扣(LeetCode) 要找到每个部门工资最高的 使用窗口函数 加排序函数 排序函数用rank dense_rank都行 把最高相同的找出来就行 select *, dense_rank() over(partition by departmentId order by Salary desc) as rank …

AntSK:基于大模型的一体化AI知识库解决方案深度解析

随着大模型(如GPT、LLM)技术的飞速发展,企业对智能知识管理和专属AI助手的需求日益增长。AntSK 正是在这一背景下诞生的企业级AI一体机解决方案。本文将从技术架构、核心功能、创新点和应用场景等方面,深入解析 AntSK 如何助力企业…

在Electron中爬取CSDN首页的文章信息

背景 之前分享了Electron入门的相关文章:https://gitee.com/ruirui-study/electron-demo 后来,我就想在里面多做一些演示给大家看,集成了以下功能及演示: 窗口管理、各种方法封装托盘管理菜单管理获取屏幕演示多窗口及通信演示…

bfs处理 推多米诺

前言:这个题目本来打算一次遍历来写,但是写的时候发现有点难搞,后面发现是 bfs ,但是这个bfs 不是很好处理,后面看了题解,颇有感触 这个和堆处理的最短路是一样的,在取出一个位置的时候才对其进…

【Java IO流】File类基础详解

参考笔记:java File类基础 万字详解(通俗易懂)-CSDN博客 目录 1.前言 2. File类介绍 3. File类构造方法 4.File类常用的方法案例演示 4.1 创建文件/文件夹的方法 4.2 删除文件/文件夹的方法 4.3 判断文件/文件夹是否存在的方法 4.4 …

【业务领域】InfiniBand协议总结

InfiniBand协议总结 InfiniBand协议是什么?Infiniband产生的原因Mellanox公司介绍及其新闻基于TCP/IP的网络与IB网络的比较IB标准的优势什么是InfiniBand网络什么是InfiniBand架构Mellanox IB卡介绍InfiniBand速率发展介绍InfiniBand网络主要上层协议InfiniBand管理…

蒙特卡罗方法(Monte Carlo Method)​​:基于随机采样的数值计算与模拟技术

​​核心思想​​ 蒙特卡罗方法通过​​随机采样​​和​​统计模拟​​解决数学、物理、工程等领域的复杂问题,其核心是利用​​大数定律​​——当样本量足够大时,样本均值会收敛于期望值。 ​​关键特点​​: ​​无维度诅咒​​&#x…

【资料分享】全志T536(异构多核ARMCortex-A55+玄铁E907 RISC-V)工业核心板硬件说明书

前 言 本文为创龙科技SOM-TLT536工业核心板硬件说明书,主要提供SOM-TLT536工业核心板的产品功能特点、技术参数、引脚定义等内容,以及为用户提供相关电路设计指导。 为便于阅读,下表对文档出现的部分术语进行解释;对于广泛认同释义的术语,在此不做注释。

【2025年五一数学建模竞赛】A题 完整论文 模型建立与求解

目录 2025年五一数学建模竞赛 A题基于历史数据与模式识别的道路车流量推测模型研究摘要一、问题的背景和重述1.1问题的背景1.2问题的重述 二、问题的分析三、模型假设四、符号及变量说明五、模型的建立与求解问题一:基于线性回归的支路车流量推测问题二:…

MySQL初阶:数据库基础,数据库和表操作,数据库中的数据类型

1.数据库基础 数据库是一个客户端——服务器结构的程序。 服务器是真正的主体,负责保存和管理数据,数据都存储在硬盘上 数据库处理的主要内容是数据的存储,查找,修改,排序,统计等。 关系型数据库&#…

“会话技术”——Cookie_(2/2)原理与使用细节

经过Cookie的快速入门与代码使用。如果想深入理解Cookie的技术实现,就得去理解它的原理。 且有些时候使用Cookie,还要根据需求设置存活期限以及确定Cookie获取范围等其他细节。最后,我们会总结Cookie这门客户端会话技术的作用。 一、原理 注…

DBeaver连接人大金仓数据库V9

1、官网下载驱动jdbc 打开官网地址,找到下面的V9R1-JDBC,点击后面的下载即可,保存到本地 2、解压最新版的驱动程序 3、把***_JDBC文件夹内的驱动程序复制到DBeaver安装目录下的plugins文件夹里 4、打开dbeaver程序,增加kingbase…

服务器丢包率测试保姆级教程:从Ping到网络打流仪实战

测试服务器丢包率是网络性能诊断的重要环节,丢包通常由网络拥塞、硬件故障、配置错误或线路质量差导致。以下是多种测试方法的详细步骤和工具说明: 一、基础工具测试(无需专业设备) 1. 使用 ping 命令 命令示例: bash…

n8n 使用 AI Agent 和 MCP 社区节点

n8n 使用 AI Agent 和 MCP 社区节点 0. 前提条件1. 创建一个 "在聊天消息时" 节点2. 创建一个 "AI Agent" 节点 0. 前提条件 请参考 n8n 安装 n8n-nodes-mcp 社区节点 安装 MCP 社区节点。 1. 创建一个 “在聊天消息时” 节点 单击 “测试聊天”&#xf…

抱佛脚之学SSMSpringMVC数据绑定

绑定默认数据类型 绑定简单数据类型 绑定POJO类型 绑定包装POJO 复杂数据绑定 绑定数组 绑定集合