Transformer原理解析及中文项目实践(微课视频版)

news/2025/10/8 10:26:29/文章来源:https://www.cnblogs.com/dslw0820/p/19129215

词汇表是一个将单词或标记映射到唯一整数索引的集合。在自然语言处理任务中,文本数据需要被转换为机器学习模型能够理解的格式。词汇表就是这样一个工具,它帮助实现文本到数字的转换。
具体来讲,词汇表通常包含以下元素:(1)单词或标记:可以是单词、字符、子词或任何其他文本单位。(2)索引:一个唯一的整数,用于表示词汇表中的每个单词或标记。
下面构建词汇表,将文本数据中的单词映射为唯一的整数索引,代码如下:

第1章/1.1 rnn.ipynb

class Vocabulary:
def init(self, freq_threshold):
self.itos = {0: "", 1: "", 2: "", 3: ""}
self.stoi = {v: k for k, v in self.itos.items()}
self.freq_threshold = freq_threshold

def build_vocabulary(self, sentence_list):frequencies = Counter()idx = 4for sentence in sentence_list:for word in sentence:frequencies[word] += 1if frequencies[word] == self.freq_threshold:self.stoi[word] = idxself.itos[idx] = wordidx += 1def numericalize(self, text):return [self.stoi[token] if token in self.stoi else self.stoi["<UNK>"] for token in text]

(1)初始化方法中定义了3个参数,itos是一个字典,用于将整数索引映射到字符串(词汇)。stoi也是一个字典,用于将字符串(词汇)映射到整数索引。freq_threshold是一个阈值,用于决订单词是否包含在词汇表中。只有当单词在所有句子中出现的频率达到或超过此阈值时,它才会被添加到词汇表中。
(2)build_vocabulary方法中,接受一个句子列表作为输入,使用Counter来计算每个单词在所有句子中的出现频率。对于每个单词,如果其频率等于freq_threshold,则将其添加到itos和stoi字典中,并递增索引idx。
(3)numericalize方法中接受文本(句子)作为输入,将文本中的每个单词转换为相应的整数索引。如果单词不在词汇表中,则使用(表示未知)的索引。
创建好词汇表后需要对数据集进行处理,定义一个NewsDataset类,用于创建一个可以被DataLoader使用的自定义数据集,代码如下:

第1章/1.1 rnn.ipynb

class NewsDataset(Dataset):
def init(self, texts, labels, vocab, max_length):
self.texts = texts
self.labels = labels
self.vocab = vocab
self.max_length = max_length

def __len__(self):return len(self.texts)def __getitem__(self, index):text = self.texts.iloc[index]label = self.labels.iloc[index]numericalized_text = [self.vocab.stoi["<SOS>"]] + self.vocab.numericalize(text)[:self.max_length-2] + [self.vocab.stoi["<EOS>"]]padded_text = numericalized_text + [self.vocab.stoi["<PAD>"]] * (self.max_length - len(numericalized_text))return torch.tensor(padded_text, dtype=torch.long), torch.tensor(label, dtype=torch.long)

(1)初始化方法定义了4个参数,texts是新闻文本数据。labels是指与文本相对应的类别标签。vocab是词汇表对象,用于将文本数据转换为数值数据。max_length表示每个文本将被填充或截断到这个长度。
(2)方法__len__用于返回数据集中的文本数量。
(3)方法__getitem__接受一个索引index,使用vocab将文本数据转换为数值数据,并添加开始()和结束()标记。如果数值化文本的长度小于max_length,则使用(填充)标记进行填充。最后返回一个元组,包含数值化文本和相应的标签,两者都转换为PyTorch张量。
通过上面构建数据集的这种方式,文本数据被转换成模型可以理解的格式,并准备好进行训练。
创建好方法函数后,需要对该方法进行实例化,代码如下:
vocab = Vocabulary(freq_threshold=5)
vocab.build_vocabulary(data['text'].apply(list))
首先实例化Vocabulary类,创建一个Vocabulary类的实例,并将其命名为vocab,用于构建词汇表。参数freq_threshold设置为5,这个参数用于确定一个单词是否应该被包含在词汇表中。只有当单词在所有句子中出现的次数大于或等于这个阈值时,该单词才会被添加到词汇表中。
设置预置的目的是通过过滤稀有词汇来减少词汇表大小,进而降低模型的复杂度和过拟合风险,同时处理数据稀疏性,提高模型泛化能力,并减少噪声,提升数据质量。这一策略有助于平衡模型性能与资源消耗,尤其对于情感分析或主题分类等特定任务,关注频繁出现的单词能更有效地捕捉文本内容信息。
然后构建词汇表,对数据data中的text列进行操作。apply(list)是一个Pandas操作,它将text列中的每个字符串转换为字符列表。假设每个条目是一个由空格分隔的单词字符串,这个操作将每个字符串分割成单词列表。
可通过vocab.itos或者vocab.stoi来查看数值和字词的映射关系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/931358.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025 年章丘二手磁选机服务公司最新推荐榜单:含回收置换 / 全型号设备及优质售后企业权威排行

在矿产加工与原料提纯行业持续发展的当下,二手磁选机因性价比优势成为众多企业降低成本的重要选择,但市场乱象却让采购者陷入困境。部分商家设备型号不全,无法满足不同产能企业需求;品牌选择狭窄,限制采购灵活性;…

Navicat配置MySQL自动备份

【自动运行】-> 【新建批处理作业】选择备份->目标数据库->添加工作设置任务计划触发器输入登录密码点击【开始】测试【还原备份】备份文件位置C:\Users\用户名\Documents\Navicat\MySQL\Servers\连接名\数据…

云南建设人力资源网站精准推广引流5000客源

来源&#xff1a;DataFunTalk导读&#xff1a;推荐系统技术&#xff0c;总体而言&#xff0c;与 NLP 和图像领域比&#xff0c;发展速度不算太快。不过最近两年&#xff0c;由于深度学习等一些新技术的引入&#xff0c;总体还是表现出了一些比较明显的技术发展趋势。这篇文章试…

营销型网站建设中坚站汽配外贸论坛

记录一些好的文字&#xff0c;希望可以和大家共勉。 一个人真正的成长&#xff0c;是战胜自己 不知你是否有这样的经历&#xff1a;曾经觉得一道题很难&#xff0c;但解出来后&#xff0c;发现其实并没那么难&#xff1b;曾经觉得一件事是不可能完成的&#xff0c;但历经千辛万…

ROS 2机器人操作系统与Gazebo机器人仿真

本书全面地介绍了ROS 2机器人操作系统与Gazebo机器人仿真技术,内容涵盖了机器人技术的基础知识、ROS 2的运行原理、基本操作与编程方法,以及新一代Gazebo仿真工具的使用,通过详细的操作步骤解析和丰富的实践案例,帮…

2025 年次氯酸钠发生器厂家最新推荐榜:覆盖电解法 / 食盐电解等类型,聚焦专利技术与成本优势的品牌深度解析水厂/大型/小型/食盐电解产生次氯酸钠发生器厂家推荐

随着水处理消毒需求的持续增长,次氯酸钠发生器因现场制备、安全环保的特性,成为水厂、污水处理厂等场景的关键设备。但当前市场乱象凸显:部分设备盐耗、电耗过高,长期运行成本居高不下;技术储备不足导致设备适配性…

2025 年最新铝镁锰板厂商口碑排行榜:实力厂家推荐及 100 万㎡工程案例与 20 年质保深度解读铝镁锰板屋面板/保温板/卷/墙面板 铝镁锰板金属屋面板

在当前建筑材料市场中,铝镁锰板因轻质、耐用、美观等优势,已成为钢结构厂房、机场、体育馆等大型项目的核心材料。但随着市场需求增长,供应商数量激增,产品质量却呈现明显分化,部分厂商存在原材料以次充好、生产工…

2025 年二氧化氯发生器厂家最新推荐排行榜:电解式设备厂家综合实力测评及优质企业选购指南电解/电解法/电解食盐/电解盐二氧化氯发生器厂家推荐

随着我国水处理行业朝着精细化、智能化方向发展,消毒设备作为水质安全的关键环节,其性能与成本已成为水厂、污水处理厂、养殖企业等用户的核心关注点。当前市场上二氧化氯发生器品牌数量激增,既有深耕行业多年的老牌…

渔具网站建设策划书前言网络推广计划书范文

1.导入的excel模版 2.点击导入&#xff0c;显示excel导入弹窗 3.点击选择文件&#xff0c;会调用本地文件夹里面的excel文件 4.选中文件&#xff0c;点击 导入 html部分 <a-button type"primary" click"onImportXls">导入</a-button><…

郯城县网站建设网站域名查ip

(方式一 ) 通过QGis创建形状图层点 1、如下gif&#xff0c;演示了创建形状图层 2、如下gif&#xff0c;演示了在高德地图上&#xff0c;形状图层上添加点 3、如下gif&#xff0c;演示了对形状图层点查看详细信息 4、如下gif&#xff0c;演示了对形状图层点查看属性表&#xff0…

eclipes网站建设教程美艺网站建设

目录 目录的权限 目录的权限 1、可执行权限: 如果目录没有可执行权限, 则无法cd到目录中. 2、可读权限: 如果目录没有可读权限, 则无法用ls等命令查看目录中的文件内容. 3、可写权限: 如果目录没有可写权限, 则无法在目录中创建文件, 也无法在目录中删除文件. 上面三个权限是…

那个网站点击率高做物流网站的图片素材

基于AFM的物质表面微观结构及力学性质表征仿真实验 说明&#xff1a; 本次实验为本科生《基础物理实验》课程中的虚拟实验部分&#xff0c;在虚拟实验平台中进行。 一、实验目的&#xff1a; 1. 掌握AFM的基本成像原理及系统结构&#xff1b; 2. 掌握AFM的基本操作技巧及操…

2025 年国内铝板厂家最新推荐排行榜:1-7 系主流铝板企业实力测评及优选指南1060/1100/3003/3004/5052/5083/6061/6063/6082铝板厂家推荐

随着工业制造、建筑装饰、交通运输等领域对铝板需求的持续增长,市场上铝板品牌数量激增,但产品质量、工艺水平与服务能力却存在显著差距。部分企业因原材料把控不严、生产设备落后,导致铝板出现尺寸偏差、表面瑕疵、…

Fedora 38 安装 perl-JSON RPM 包步骤(含依赖问题解决及附安装包)​

Fedora 38 安装 perl-JSON RPM 包步骤(含依赖问题解决及附安装包)​​perl-JSON​ 是一个 ​Perl 语言的模块,它的作用是让 Perl 程序能够 ​轻松地处理 JSON 格式的数据。一、先确认你系统是 Fedora 38 这个包名字…

2025 年染井吉野樱种植服务公司最新推荐排行榜:苗木分枝点规格详解与景观适配指南及优质企业榜单染井吉野樱花苗/五公分染井吉野樱/十公分染井吉野樱/染井吉野樱批发公司推荐

在当前染井吉野樱苗木采购与景观工程领域,分枝点规格混乱、适配性不足的问题愈发凸显,给采购方和项目实施带来诸多困扰。市场上苗木分枝点标注随意,缺乏统一标准,部分供应商忽视科学培育,导致苗木移栽后景观效果差…

完整教程:BUUCTF[ACTF2020 新生赛]Include 1题解

完整教程:BUUCTF[ACTF2020 新生赛]Include 1题解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas",…

2025 年国内磁选机厂家最新推荐排行榜:立环 / 高梯度 / 油冷立环磁选机优质厂商实力解析

在矿产加工与原料提纯行业中,磁选机作为核心分选设备,其品质、适配性与后续服务直接决定企业生产效率、产品纯度及运营成本。当前市场存在品牌杂乱、型号无序的问题,部分厂家产品单一,难以匹配不同规模企业的产能需…

云主机重装系统后网站重新部署吗网络推广工资

依赖 最佳实践的这部分阐述Chart.yaml中声明的dependencies。 版本 如果有可能的话&#xff0c;使用版本范围而不是某个固定的版本。建议的默认设置是使用补丁级别的版本的匹配&#xff1a; version: ~1.2.3 version: ~1.2.3 这样会匹配1.2.3以及该版本的任何补丁&#xff0…

2025 年最新三维扫描仪厂家权威推荐排行榜:空间 / 高精度 / 手持激光等类型设备优选企业全解析工业/便携式/拍照式/蓝光三维扫描仪厂家推荐

当前数字化浪潮下,三维扫描技术在文博保护、工业检测、医疗诊断、教育科研、电商展示等领域的应用愈发深入,市场对各类三维扫描设备的需求呈爆发式增长。但与此同时,市场上品牌繁杂、产品性能差异悬殊,从消费级到工…

2025 年北京红旗国悦经销商最新推荐排行榜:行业标杆与新锐品牌齐聚,购车选品指南重磅发布北京丰田考斯特/北京红旗国悦12座/北京考斯特4S店/北京丰田柯斯达/北京考斯特商务车经销商推荐

随着高端商务出行需求的持续升级,红旗国悦作为国车高端代表,其销售与定制服务市场愈发活跃,但也暗藏诸多选择难题。一方面,市场中既有深耕多年的老牌服务商,也涌现出大批新兴品牌,服务质量、定制能力与售后保障参…