Subword-Based Tokenization策略之BPE与BBPE - 指南

news/2025/11/8 11:53:38/文章来源:https://www.cnblogs.com/yxysuanfa/p/19201889

在NLP中,Subword算法用于将单词拆分为更小的语义单元,也就是子词,以解决OOV和数据稀疏性问题。

1、BPE

Byte-Pair Encoding,字节对编码

核心思想:词频统计,词表合并

步骤

  1. 初始化词汇表为所有基础字符。

  2. 统计相邻符号对的频率,合并最高频的对。

  3. 重复合并直到达到预设的词汇表大小或迭代次数。

案例:

语料 = ["low low low", "lower lower", "newest newest", "wider"]

设置迭代次数为2

初始化词汇表:{l,o,w,,e,r,n,s,t,i,d,/w}

统计相邻符号对
low:lo (3) ,ow(3)  w</w>(3)

lower:lo (2) ,ow(2) ,we(2),er(2),r</w>(2)

newest:ne(2),ew(2),we(2),es(2),st(2),t</w>(2)

wider:wi(1),id(1),de(1),er(1),r</w>(1)

最高频的对:lo(3+2) ,ow(3+2) 

在 BPE(Byte Pair Encoding)算法中,当多个字符对频率相同时,选择哪个先合并,没有唯一标准,但通常采用“字典序优先”或“任意选择”。

这个选择会影响最终的子词单元构成,但影响通常是局部的、有限的,在大规模语料中趋于稳定。

这里选择lo

更新词汇表:{l,o,w,,e,r,n,s,t,i,d,</w>,lo}

得到规则:l + o = lo

进入下一次迭代

第二次统计符号对:

low:low (3) ,w</w>(3)

lower:low(2) ,we(2),er(2),r</w>(2)

newest:ne(2),ew(2),we(2),es(2),st(2),t</w>(2)

wider:wi(1),id(1),de(1),er(1),r</w>(1)

最高频的子词:low(3+2)

更新词汇表:{l,o,w,,e,r,n,s,t,i,d,</w>,lo,low}

得到规则:lo + w = low

结束迭代

得到最终词汇表:{l,o,w,e,r,n,s,t,i,d,</w>,lo,low}

存在的问题
  • 基本词汇表需要包含所有可能的基本字符,可能相当大.

  • 比如所有Unicode中文字符都被视为基本字符的话,有 10w+。

2、BBPE

Byte-Level Byte-Pair Encoding,BPE的字节级扩展版本,主要用于处理多语言 NLP 任务。

BBPE vs. BPE
特性BPEBBPE
处理单位字符或子词字节、UTF-8编码
适用语言适用于空格分隔语言适用所有语言
OOV 处理仍可能遇到OOV几乎不会有 OOV 问题
存储开销词表较小词表较大,但更具泛化能力

工作原理:原理和BPE一致,只是使用字节(byte)作为初始token,适用于任何文本。

案例:        

语料:深度学习需要一定的学习深度

预处理

首先将句子转换为UTF-8编码的字节序列,十进制表示:

230 183 177 229 186 166 229 173 166 228 185 176 233 156 128 232 166 129 228 184 128 229 174 154 231 154 132 229 173 166 228 185 176 230 183 177 229 186 166
 初始化词汇表

初始词汇表为所有唯一的字节 0-255,但此处仅包含语料中出现的字节:

{128, 129, 132, 154, 156, 166, 171, 173, 174, 177, 183, 184, 185, 186, 228, 229, 230, 231, 232, 233}
初始分词结果

每个字节单独成词

230 183 177 | 229 186 166 | 229 173 166 | 228 185 176 | 233 156 128 | 232 166 129 | 228 184 128 | 229 174 154 | 231 154 132 | 229 173 166 | 228 185 176 | 230 183 177 | 229 186 166
统计字节对频率

遍历所有相邻的字节对,统计出现频率:

字节对频率
(230, 183)2
(183, 177)2
(229, 186)2
(186, 166)2
(229, 173)1
......
合并最高频字节对

选择频率最高的字节对进行合并,如 (230, 183)。 合并操作

  • 将 230 \:\: 183 替换为新符号 230\_183。

  • 为该符号新分配一个ID,如 256。

  • 更新词汇表:新增 256 = 230\_183。

  • 此时,我们可以更新分词结果了

    256 177 | 229 186 166 | 229 173 166 | 228 185 176 | 233 156 128 | 232 166 129 | 228 184 128 | 229 174 154 | 231 154 132 | 229 173 166 | 228 185 176 | 256 177 | 229 186 166
迭代合并

重复统计和合并,直到达到预设的合并次数或词汇表大小。

第二次合并

  • 统计当前字节对频率,如 (256, 177) 出现 2 次。

  • 合并 256 \:\: 177 为新符号 257 = 256\_177。

更新后的分词结果:

257 | 229 186 166 | 229 173 166 | 228 185 176 | ... | 257 | 229 186 166

第三次合并

  • 合并 (229, 186)。

  • 新符号 258 = 229\_186。

更新后的分词结果:

257 | 258 166 | 229 173 166 | 228 185 176 | ... | 257 | 258 166
 最终词汇表

经过多次合并后,词汇表会包含初始字节和常见组合:

  • 初始字节:230, 183, 177, 229, 186, ...

  • 合并后的符号:

    • 256 = 230\_183

    • 257 = 256\_177

    • 258 = 229\_186

    • 259 = 258\_166

符号的层级关系

如 257 = 256\_177,而 256 = 230\_183,因此 257 实际表示 230\_183\_177,即完整的"深"的UTF-8字节序列。

编码示例

原始句子编码为:

257 259 | 229 173 166 | 228 185 176 | ... | 257 259

其中 257 表示"深",259 表示"度"

当然了,(257, 259) 出现 2 次,下一步合并 (257, 259) → 新符号 260 = 257\_259,即"深度"的完整Token。

所以,这怎么可能会出现 OOV 的问题?

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/959590.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025年耐用的牛排切断贴体盒厂家最新热销排行

2025年耐用的牛排切断贴体盒厂家最新热销排行 随着生鲜电商和预制菜行业的快速发展,高品质的牛排切断贴体盒需求激增。这类包装需具备高阻隔性、强抗穿刺性和延长保鲜期等特性,成为食品包装领域的技术标杆。以下是2…

基于springboot志愿服务管理系统设计与搭建(附源码)

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

高性能计算-深入理解共享内存 bankConflict 以及解决方案

1. 背景知识常说的 bankConflict 指的在共享内存的 store load 过程中产生。共享内存位于 L1TexCache 上,使用场景通常为从 GlobalMemeory store to SharedM,sharedM load to register。共享内存的硬件实现:为实现高…

/etc/systemd/system和/lib/systemd/system的区别 - Leone

linux系统中有很多的system目录,在平常使用中或者大量的博客中,常看到的有/etc/systemd/system、/lib/systemd/system以及/usr/lib/systemd/system等,这三者有什么样的关系呢,本文将三者的关系详细说明,后续使用不…

git base多标签解决方案

1,打开cmd或者powershell 2,按下图增加git base配置 3,默认启动配置 图标:

详细介绍:LSTM与GRU:解决RNN梯度消失问题的利器(含代码)

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

MySQL索引(二):覆盖索引、最左前缀原则与索引下推详解

MySQL系列文章 本文是MySQL索引系列的第二篇,接续前文《MySQL索引(一):从数据结构到存储引擎的实现》的基础知识,将深入探讨索引的高级特性和优化技巧。本文将通过实际案例,详细解析覆盖索引、最左前缀原则和索引…

2025年广东RBA验厂认证机构权威推荐榜单:BSCI验厂认证/智能工厂申报/BSCI验厂认证实力机构精选

在全球化供应链管理日益严格的背景下,RBA(责任商业联盟)验厂认证已成为电子行业及相关供应链企业的核心社会责任标准之一。通过RBA认证意味着企业在劳工权益、健康安全、环境保护、商业道德等方面达到了国际要求,成…

2025年交通信号灯定制厂家权威推荐榜单:红绿灯交通信号灯/机动车信号灯/太阳能信号灯源头厂家精选

在智慧城市与交通强国建设的双重推动下,智能交通信号灯市场正迎来快速增长。据行业报告分析,未来几年全球智能交通信号灯市场预计将保持稳定增长态势。 作为智能交通系统的核心组成部分,定制化的交通信号灯不仅能满…

72Mhz 32位MCU MH2030ACCT7软硬件兼容STM32F030C8T6

MH2030ACCT7基于32位ArmCortex M0核心的MCU,最大支持256K字节闪存、12个定时器、1个ADC、10个通信接口、2组比较器、3组运算放大器 内核:32位的ArmCortex-M0 Core,最高72MHz工作频率 存储器 − 支持最大256K字节的闪…

2025年啤酒厂设备实力厂家权威推荐榜单:精酿啤酒设备/精酿啤酒厂设备/啤酒设备/啤酒生产设备源头厂家精选

随着精酿啤酒市场的持续升温,专业啤酒厂设备已成为决定啤酒品质与生产效率的关键因素。据行业数据显示,2025年中国精酿啤酒设备市场规模预计达到87亿元,年复合增长率稳定在15%-18% 的区间。 在啤酒产业升级的浪潮中…

2025年村口村牌石实力厂家权威榜单:入村口村牌石/村标石/村牌石源头厂商精选

在美丽乡村建设和乡村旅游蓬勃发展的背景下,村口村牌石作为村庄形象展示的第一视觉载体,其重要性日益凸显。一块设计精湛、制作精良的村牌石不仅能提升村庄整体形象,更能传承地方文化,增强村民认同感。 当前,超过…

一对一直播软件源码,为什么 Java 不支持类多重继承? - 云豹科技

一对一直播软件源码,为什么 Java 不支持类多重继承?为什么Java不支持类多重继承, 可以考虑以下两点:1、 第一个原因围绕钻石💎形继承问题产生的歧义考虑一个类 A 有 foo() 方法, 然后 B 和 C 派生自 A, 并且有自己…

Claude Code 体验:让 AI 成为你的编程搭档,效率翻倍指南

最近一直在尝试各类 AI 辅助编程工具,偶然发现了 Claude Code 这款神器,使用两个月后工作效率提升显著。今天就来分享它的核心优势、实际使用场景,以及更便捷的上手方式,帮大家少走弯路~ 一、为什么推荐 Claude C…

2025年铟铋锡合金权威榜单:铟板/铟条/铟方块源头厂商精选

在高端制造业和电子半导体行业飞速发展的今天,铟铋锡合金作为一种重要的低熔点合金和功能材料,在电子焊料、热界面材料、半导体封装、ITO靶材等领域发挥着不可替代的作用。其独特的低熔点特性、优良的导热性、良好的…

2025年连接器厂家权威推荐榜:USB连接器,电池连接器,TYPE-C连接器,防水TYPE-C/USB连接器优质供应商精选

2025年连接器厂家权威推荐榜:USB连接器,电池连接器,TYPE-C连接器,防水TYPE-C/USB连接器优质供应商精选 一、行业背景与发展趋势 随着物联网、智能家居、移动终端设备的快速发展,连接器作为电子设备中不可或缺的关…

2025年插座厂家权威推荐榜:耳机插座,DC插座,防水耳机插座源头企业综合测评与选购指南

2025年插座厂家权威推荐榜:耳机插座,DC插座,防水耳机插座源头企业综合测评与选购指南 随着智能终端设备市场的持续扩张,插座类元器件作为电子设备中不可或缺的接口部件,其技术标准与品质要求日益提升。耳机插座在…

2025年轻触开关厂家推荐排行榜,检测开关,轻触开关,防水轻触开关,微型轻触开关公司最新精选榜单

2025年轻触开关厂家推荐排行榜,检测开关,轻触开关,防水轻触开关,微型轻触开关公司最新精选榜单 随着智能家居、消费电子和工业自动化领域的快速发展,轻触开关、检测开关、防水轻触开关和微型轻触开关作为关键电子…

2025年墙面隔热涂料权威榜单:厂房隔热材料/外墙隔热涂料/储罐保温隔热涂料实力厂商精选

在建筑节能与绿色建材需求日益增长的背景下,墙面隔热涂料作为提升建筑能效的关键材料,正受到广泛关注。这类涂料通过减少建筑内外热量传递,可显著降低空调能耗20%-40%,为实现"双碳"目标提供有效技术路径…

2025年CNC加工厂家权威推荐排行榜:CNC精密加工/加工中心CNC/cnc电脑锣加工/铝板cnc加工/精密CNC加工公司推荐

2025年CNC加工厂家权威推荐排行榜:CNC精密加工/加工中心CNC/cnc电脑锣加工/铝板cnc加工/精密CNC加工公司推荐 行业背景与发展趋势 随着制造业向智能化、精密化方向转型升级,CNC加工技术作为现代制造业的核心支撑,正…