【NLP 困惑度解析和python实现】

**困惑度(Perplexity)**是自然语言处理和机器学习中常用的评价指标,尤其在评估语言模型时广泛使用。它衡量的是一个概率模型对一个样本(如一句话)的预测能力。


一、困惑度的定义

对于一个语言模型 $ P $ 和一个测试语料 $ W = w_1, w_2, \dots, w_N $,其困惑度定义为:

Perplexity = P ( w 1 , w 2 , … , w N ) − 1 N = exp ⁡ ( − 1 N ∑ i = 1 N log ⁡ P ( w i ) ) \text{Perplexity} = P(w_1, w_2, \dots, w_N)^{-\frac{1}{N}} = \exp\left( -\frac{1}{N} \sum_{i=1}^N \log P(w_i) \right) Perplexity=P(w1,w2,,wN)N1=exp(N1i=1NlogP(wi))

其中:

  • $ N $ 是测试集中词的总数;
  • $ P(w_i) $ 是模型对第 $ i $ 个词的概率估计;
  • 求和是对所有词的概率取对数后的总和;
  • 外层指数化是为了得到更直观的数值。

二、计算步骤

假设你有一个语言模型,并且已经对某个句子做了概率预测(即每个词的概率),你可以按以下步骤计算困惑度:

步骤 1:获取词的对数概率

给定一个句子,例如:

“the cat sat on the mat”

假设你的模型输出了每个词的条件概率如下:

概率 P ( w i ) P(w_i) P(wi) log ⁡ P ( w i ) \log P(w_i) logP(wi)
the0.1-2.30
cat0.05-3.00
sat0.02-3.91
on0.07-2.66
the0.1-2.30
mat0.08-2.53

注意,上表中使用的 log ⁡ \log log 是以自然对数(ln)为基础的。

步骤 2:求平均对数概率

avg_log_prob = 1 N ∑ i = 1 N log ⁡ P ( w i ) = − 2.30 − 3.00 − 3.91 − 2.66 − 2.30 − 2.53 6 = − 16.7 6 = − 2.783 \text{avg\_log\_prob} = \frac{1}{N} \sum_{i=1}^N \log P(w_i) = \frac{-2.30 -3.00 -3.91 -2.66 -2.30 -2.53}{6} = \frac{-16.7}{6} = -2.783 avg_log_prob=N1i=1NlogP(wi)=62.303.003.912.662.302.53=616.7=2.783

步骤 3:计算困惑度

Perplexity = exp ⁡ ( − avg_log_prob ) = exp ⁡ ( 2.783 ) ≈ 16.16 \text{Perplexity} = \exp(-\text{avg\_log\_prob}) = \exp(2.783) \approx 16.16 Perplexity=exp(avg_log_prob)=exp(2.783)16.16


三、代码示例(Python)

import math# 假设这是模型对每个词的预测概率
probs = [0.1, 0.05, 0.02, 0.07, 0.1, 0.08]# 计算 log probabilities
log_probs = [math.log(p) for p in probs]# 平均 log probability
avg_log_prob = sum(log_probs) / len(log_probs)# 计算困惑度
perplexity = math.exp(-avg_log_prob)print("Perplexity:", perplexity)

输出类似:

Perplexity: 16.16

四、解释与意义

  • 困惑度越低越好,表示模型对测试数据的预测越准确。
  • 如果困惑度很高,说明模型难以确定下一个词是什么,不确定性大。
  • 最理想的情况是模型对每个词都给出高概率,这时困惑度会很低。

五、注意事项

  1. 平滑处理:实际中由于某些词可能未出现在训练数据中,直接使用最大似然估计会导致概率为 0,困惑度变成无穷大。通常需要使用 拉普拉斯平滑Kneser-Ney 平滑 等方法。

  2. 交叉熵损失:困惑度和交叉熵密切相关。实际上,在深度学习中我们常用交叉熵损失来训练语言模型,而困惑度是它的指数形式:

    Perplexity = exp ⁡ ( CrossEntropyLoss ) \text{Perplexity} = \exp(\text{CrossEntropyLoss}) Perplexity=exp(CrossEntropyLoss)


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/83217.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

编程题 02-线性结构3 Reversing Linked List【PAT】

文章目录 题目输入格式输出格式输入样例输出样例 题解解题思路完整代码 编程练习题目集目录 题目 Given a constant K K K and a singly linked list L L L, you are supposed to reverse the links of every K K K elements on L L L. For example, given L being 1 → …

互联网大厂Java求职面试实战:Spring Boot到微服务全景解析

💪🏻 1. Python基础专栏,基础知识一网打尽,9.9元买不了吃亏,买不了上当。 Python从入门到精通 2. 我的免费工具站: 欢迎访问 https://tools-6wi.pages.dev/ 😁 3. 毕业设计专栏,毕业…

课程11. 计算机视觉、自编码器和生成对抗网络 (GAN)

计算机视觉、自编码器和生成对抗网络(GAN) 自动编码器Vanilla自动编码器使用 AE 生成新对象. 变分 AE (VAE)AE 条件 GAN理论示例下载并准备数据GAN模型 额外知识 课程计划: 自动编码器: 自动编码器结构;使用自动编码器…

MarkitDown:AI时代的文档转换利器

在当今AI快速发展的时代,如何高效地将各种格式的文档转换为机器可读的格式,成为了一个迫切需要解决的问题。今天,我们来介绍一款由微软开发的强大工具——MarkitDown,它正是为解决这一问题而生的。 什么是MarkitDown? MarkitDown是一个用Python编写的轻量级工具,专门用…

Python实战案例:打造趣味猜拳小游戏

Python实战案例:猜拳小游戏 文章目录 Python实战案例:猜拳小游戏一、案例背景二、代码实现三、代码解析3.1 执行过程3.2 流程图 四、案例总结1. 核心知识点运用2. 编程思维提升 一、案例背景 猜拳游戏(石头剪刀布)是一款规则简单…

MCP:重塑AI交互的通用协议,成为智能应用的基础设施

目录: 为什么我们需要一个AI世界的USB-C?MCP的核心架构与工作原理MCP如何解决当前AI生态系统的碎片化问题从代码到实践:构建基于MCP的智能应用MCP的未来:从工具到生态为什么我们需要一个AI世界的USB-C? 还记得在USB-C标准普及之前,我们的数字生活是什么样子吗?抽屉里塞…

如何保证RabbitMQ消息的顺序性?

保证RabbitMQ消息的顺序性是一个常见的需求,尤其是在处理需要严格顺序的消息时。然而,默认情况下,RabbitMQ不保证消息的全局顺序,因为消息可能会通过不同的路径(例如不同的网络连接或线程)到达队列&#xf…

HTML-2.2 列表--无序列表、有序列表、定义列表

本系列可作为前端学习系列的笔记,代码的运行环境是在HBuilder中,小编会将代码复制下来,大家复制下来就可以练习了,方便大家学习。小编作为新晋码农一枚,会定期整理一些写的比较好的代码,作为自己的学习笔记…

Vuex和Vue的区别

Vue和Vuex有着不同的功能和定位,主要区别如下: 概念与功能 - Vue:是一个构建用户界面的JavaScript框架,专注于视图层的开发,采用组件化的方式构建应用程序,通过数据绑定和指令系统,能方便地…

数据可视化-----子图的绘制及坐标轴的共享

目录 绘制固定区域的子图 (一)、绘制单子图 subplot()函数 Jupyter Notebook的绘图模式 (二)、多子图 subplots()--可以在规划好的所有区域中一次绘制多个子图 (三)、跨行跨列 subplot2grid()---将整…

基于Qt6 + MuPDF在 Arm IMX6ULL运行的PDF浏览器——MuPDF Adapter文档

项目地址:总项目Charliechen114514/CCIMXDesktop: This is a Qt Written Desktop with base GUI Utilities 本子项目地址:CCIMXDesktop/extern_app/pdfReader at main Charliechen114514/CCIMXDesktop 前言 这个部分说的是Mupdf_adaper下的文档的工…

Linux 防火墙 firewalld 实战配置教程!

最近工作上处理了很多关系配置服务器防火墙的操作,于是想写一篇理论与实践并存的文章,在这里分享给大家,希望对您有所帮助! 主要包括以下几部分内容: 防火墙概述 firewalld原理框架 与iptables的异同点 firewalld常…

C#发送文件到蓝牙设备

测试环境: visual studio 2022 win11笔记本电脑,具有蓝牙功能 .net6控制台 测试步骤如下: 1 新增名为BluetoothDemo控制台项目 2 通过nuget安装InTheHand.Net.Bluetooth,版本选择4.2.1和安装InTheHand.Net.Obex,版…

初识 Pandas:Python 数据分析的利器

在数据分析、数据清洗和可视化等领域,Python 无疑是最受欢迎的语言之一,而在 Python 的数据处理生态中,Pandas 是最核心、最基础的库之一。如果你接触数据分析、机器学习、金融建模,或者只是想处理一些 Excel 表格,那么…

SpringBoot项目使用POI-TL动态生成Word文档

近期项目工作需要动态生成Word文档的需求,特意调研了动态生成Word的技术方案。主要有以下两种: 第一种是FreeMarker模板来进行填充;第二种是POI-TL技术使用Word模板来进行填充; 以下是关于POI-TL的官方介绍 重点关注&#xff1…

fakeroot 在没有超级用户权限的情况下模拟文件系统的超级用户行为

fakeroot 是一个在 Linux 环境中使用的工具,它允许用户在没有超级用户权限的情况下模拟文件系统的超级用户行为。它是一个在 Linux 环境中广泛使用的工具,通常包含在大多数 Linux 发行版的软件仓库中。‌ 主要功能 ‌模拟 root 权限‌:fake…

Spring Spring Boot 常用注解整理

Spring & Spring Boot 常用注解整理 先理解核心概念:什么是注解(Annotation)?第一部分:IOC(控制反转)和 DI(依赖注入)1. Component2. Service, Repository, Controll…

AIGC与数字媒体实验室解决方案分享

第1部分 概述 1.1 建设目标 1.深度融合AIGC技术,培养能够驾驭新质生产力的数字媒体人才 通过引入前沿的AIGC技术,确保学生能够接触到最先进的人工智能应用。教学内容理论和实践结合,让学生在实际操作中熟练掌握AIGC工具,生成高…

讯联云库项目开发日志(二)AOP参数拦截

目录 利用AOP实现参数拦截: 一、​​HTTP请求进入Controller​(发送邮件验证码) 二、AOP切面触发 1. 切面拦截(GlobalOperactionAspect.class) method.getAnnotation()​​ null interceptor 判断​​ 2.参数校验注解 3. 参…

用OBD部署OceanBase社区版的避坑指南

以下是用OBD黑屏部署 OceanBase社区版时容易碰到的几个问题及解决思路,供大家参考。 一、 遇坑步骤:用yaml文件部署集群: obd cluster deploy obtest -c mini-single-example.yaml 报错: Package oceanbase-ce-4.2.1.8-108000…