100 个 NLP 面试问题

100 个 NLP 面试问题

一、 说明

   对于技术磨练中,其中一项很酷的技能培训是提问。不知道答案并没有多大的错;错就错在不谷歌这些疑问。本篇就是在面试之前,您将此文档复制给自己,做一个系统的模拟实战。

二、经典NLP问题(共8题)

TF-IDF 和 ML ;

  1. 从头开始编写 TF-IDF。

  2. 什么是TF-IDF中的归一化?

  3. 为什么在我们这个时代需要了解TF-IDF,如何在复杂的模型中使用它?

  4. 解释朴素贝叶斯的工作原理。你可以用它来做什么?

  5. SVM 如何容易出现过拟合?

  6. 解释文本预处理的可能方法(词形还原和词干提取)。您知道哪些算法,在什么情况下会使用它们?

  7. 你知道哪些文本相似度指标?

  8. 解释余弦相似度和余弦距离的区别。以下哪个值可以是负数?你会如何使用它们?

三、计量指标 (7题)

  1. 用简单的语言解释精确度和回忆力,如果没有 F1 分数,你会看什么?

  2. 在什么情况下,你会观察到特异性的变化?

  3. 你什么时候会看宏观指标,什么时候看微观指标?为什么存在加权指标?

  4. 什么是困惑?我们可以用什么来考虑它?

  5. 什么是 BLEU 指标?

  6. 解释不同类型的ROUGE指标之间的区别?

  7. BLUE和ROUGE有什么区别?

四、WORD2VEC(9题)

  1. 解释Word2Vec是如何学习的?什么是损失函数?什么是最大化?

  2. 您知道哪些获取嵌入的方法?什么时候会更好?

  3. 静态嵌入和上下文嵌入有什么区别?

  4. 你知道的两种主要架构是什么,哪一种学得更快?

  5. Glove、ELMO、FastText 和 Word2Vec 有什么区别?

  6. 什么是负抽样,为什么需要负抽样?您还知道 Word2Vec 的哪些其他技巧,以及如何应用它们?

  7. 什么是密集嵌入和稀疏嵌入?请举例说明。

  8. 为什么嵌入的维度很重要?

  9. 在短文本数据上训练Word2Vec时会出现什么问题,如何处理?

五、RNN 和 CNN(7题)

  1. 一个简单的 1 层 RNN 有多少个训练参数?

  2. RNN训练是如何进行的?

  3. RNN存在哪些问题?

  4. 您知道哪些类型的 RNN 网络?解释 GRU 和 LSTM 之间的区别?

  5. 我们可以在这样的网络中调整哪些参数?(堆垛,层数)

  6. 什么是RNN的消失梯度?你如何解决这个问题?

  7. 为什么要在 NLP 中使用卷积神经网络,如何使用它?你怎么能在注意力范式中比较CNN?

六、NLP 和 TRANSFORMERS

注意力和变压器架构 (15题)
32.你如何计算注意力?(补充:它被提议用于什么任务,为什么?

  1. 注意力的复杂性?将其与 RNN 的复杂性进行比较。

  2. 比较 RNN 和注意力。在什么情况下你会使用注意力,什么时候 RNN?

  3. 从头开始写注意力。

  4. 解释注意中的掩饰。

  5. 自注意力矩阵的维度是多少?

  6. BERT和GPT在注意力计算方面有什么区别?

  7. 变压器中嵌入层的尺寸是多少?

  8. 为什么嵌入被称为上下文?它是如何工作的?

  9. 变压器中使用什么,层规范或批量规范,为什么?

  10. 为什么变压器有PreNorm和PostNorm?

  11. 解释软注意力和硬注意力(局部/全局)之间的区别?

  12. 解释多头注意力。

  13. 您还知道哪些其他类型的注意力机制?这些修改的目的是什么?

  14. 随着人头数量的增加,自我注意力如何变得更加复杂?

七、变压器型号类型 (7题)

  1. 为什么 BERT 在很大程度上落后于 RoBERTa ,你能从 RoBERTa 中学到什么?

  2. 什么是 T5 和 BART 型号?它们有何不同?

  3. 什么是与任务无关的模型?请举例说明。

  4. 通过比较 BERT、GPT 和 T5 来解释 transformer 模型。

  5. BERT、GPT等在模型知识方面存在哪些主要问题?如何解决这个问题?

  6. 类似解码器的 GPT 在训练和推理过程中是如何工作的?有何不同?

  7. 解释变压器模型中头部和层之间的区别。

八、位置编码 (6题)

  1. 为什么在变压器模型的嵌入中丢失了有关位置的信息?

  2. 解释位置嵌入的方法及其优缺点。

  3. 为什么我们不能简单地添加一个带有标记索引的嵌入?

  4. 我们为什么不训练位置嵌入?

  5. 什么是相对和绝对位置编码?

  6. 详细解释旋转位置嵌入的工作原理。

九、预训练 (4题)

  1. 因果语言建模是如何工作的?

  2. 我们什么时候使用预训练模型?

  3. 如何从头开始训练变压器?解释一下你的管道,在什么情况下你会这样做?

  4. 除了 BERT 和 GPT 之外,您还知道哪些模型可用于各种预训练任务?

十、分词器 (9题)

  1. 您知道哪些类型的分词器?比较它们。

  2. 你能扩展一个分词器吗?如果是,在什么情况下你会这样做?你什么时候会重新训练一个分词器?添加新代币时需要做什么?

  3. 普通代币与特殊代币有何不同?

  4. 为什么变压器中不使用词形还原?为什么我们需要代币?

  5. 如何训练分词器?用 WordPiece 和 BPE 的例子来解释。

  6. CLS向量占据什么位置?为什么?

  7. BERT 中使用了什么分词器,GPT 中使用了哪个分词器?

  8. 解释现代分词器如何处理词汇表外的单词?

  9. 分词器词汇大小有什么影响?在新培训的情况下,您将如何选择它?

十一、训练 (8题)

  1. 什么是阶级失衡?如何识别它?说出解决此问题的所有方法。

  2. 在推理过程中可以使用 dropout 吗,为什么?

  3. Adam 优化器和 AdamW 有什么区别?

  4. 消耗的资源如何随着梯度积累而变化?

  5. 如何优化训练期间的资源消耗?

  6. 你知道哪些分布式训练方法?

  7. 什么是文本增强?说出您知道的所有方法。

  8. 为什么填充物的使用频率较低?取而代之的是做什么?

  9. 解释热身是如何工作的。

  10. 解释渐变裁剪的概念?

  11. 教师强迫如何工作,请举例说明?

  12. 为什么以及如何使用跳过连接?

  13. 什么是适配器?我们可以在哪里以及如何使用它们?

  14. 解释度量学习的概念。你知道什么方法?

十二、推理 (4题)

  1. softmax中的温度控制什么?你会设置什么值?

  2. 解释生成中的采样类型?top-k、top-p、细胞核采样?

  3. 波束搜索的复杂性是什么,它是如何工作的?

  4. 什么是句子嵌入?您可以通过哪些方式获得它?

十三、LLM (13题)

  1. LoRA是如何工作的?您将如何选择参数?想象一下,我们想要微调一个大型语言模型,将 LORA 与小 R 一起应用,但该模型仍然不适合内存。还能做些什么?

  2. prefix tuning , p-tuning 和 prompt tuning 和有什么不一样?

  3. 解释缩放定律。

  4. 解释LLM训练的所有阶段。我们可以从哪些阶段弃权,在什么情况下?

  5. RAG是如何工作的?它与小镜头 KNN 有何不同?

  6. 你知道什么量化方法?我们可以微调量化模型吗?

  7. 如何防止 LLM 中的灾难性遗忘?

  8. 讲解KV缓存、分组查询注意力和多查询注意力的工作原理。

  9. 解释 MixTral 背后的技术,它的优缺点是什么?

  10. 你好吗?事情进展如何?

如果你觉得这些信息有帮助,并想以其他方式感谢我。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/664890.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

代码随想录算法训练营第三十四天|62.不同路径 , 63. 不同路径 II

确定dp数组(dp table)以及下标的含义确定递推公式dp数组如何初始化确定遍历顺序举例推导dp数组 62.不同路径 代码随想录 视频讲解:动态规划中如何初始化很重要!| LeetCode:62.不同路径_哔哩哔哩_bilibili class Solut…

洪水攻击:理解与防御

一、引言 洪水攻击是一种常见的网络攻击手段,其特点是攻击流量巨大,远远超过目标系统或网络的正常处理能力。这种攻击方式会给目标系统带来巨大的压力,可能导致系统崩溃或网络瘫痪。本文将深入探讨洪水攻击的本质、常见类型以及防御策略。 …

gogs 搭建私人git服务器遇到的问题汇总

1、新建用户 运行 sudo adduser git 新建好 git 用户。 su git 以 git 用户登录 2、下载解压安装包 下载地址:From binary - Gogs 选择相对应的版本,下载并解压到/home/git文件下 3、运行安装 首先建立好数据库。在 Gogs 目录的 scripts/mysql.sql…

【ETOJ P1014】straax‘aks Array 题解(多重循环+暴力枚举+位运算)

题目描述 给定一个长度为 n n n 的数组 a a a 和一个整数 m m m&#xff0c;问数组中有多少个三元组 ( i , j , k ) (i,j,k) (i,j,k)&#xff0c;满足&#xff1a; i < j < k i < j < k i<j<k ( a i a j a k ) ( a i ⊕ a j ⊕ a k ) ≥ m (a_i a_j…

Jenkins任意文件读取漏洞(CVE-2024-23897)复现

Jenkins 有一个内置的命令行界面CLI&#xff0c;在处理 CLI 命令时Jenkins 使用args4j 库解析 Jenkins 控制器上的命令参数和选项。此命令解析器具有一个功能&#xff0c;可以将参数中后跟文件路径的字符替换为文件内容 ( expandAtFiles)。具有Overall/Read权限的攻击者可以读取…

mysql主流版本5.5/5.6/5.7/8.0重置修改密码方法

最近几天来回切换各个Mysql版本重置密码&#xff0c;记录一下各个版本重置密码的方法。 MySql 5.5 SET PASSWORD FOR usernamelocalhost PASSWORD(new_password);MySql5.6 SET PASSWORD FOR usernamelocalhost new_password;MySql5.7 ALTER USER usernamelocalhost IDENT…

PeakCAN连接到WSL2 Debian

操作步骤 按照以下步骤进行操作&#xff1a; 在Windows下安装PeakCAN驱动并安装&#xff0c;地址是https://www.peak-system.com/PCAN-USB.199.0.html?&L1 在Windows下安装usbipd&#xff0c;地址是https://github.com/dorssel/usbipd-win/releases&#xff0c;最新版是…

C#字符串匹配(模式搜索)BF(Brute Force)暴力算法

暴力算法概念 暴力算法&#xff08;Brute Force Algorithm&#xff09;是一种简单直接的解决问题的方法&#xff0c;它通过穷举所有可能的解决方案来寻找问题的解。暴力算法通常是基于穷举搜索的思想&#xff0c;遍历所有可能的情况&#xff0c;然后逐一检查每种情况是否满足问…

小米服务治理——客户端熔断器(Google SRE客户端熔断器)

目录 前言 一、什么是Google SRE熔断器 二、Google SRE 熔断器的工作流程&#xff1a; 三、客户端熔断器 (google SRE 熔断器) golang GRPC 实现 四、客户端熔断器 (google SRE 熔断器) golang GRPC单元测试 大家可以关注个人博客&#xff1a;xingxing – Web Developer …

nest.js实现登录验证码功能(学习笔记)

安装express-session npm i express-session 引入 注册session import * as session from express-session;import { NestFactory } from nestjs/core; import {DocumentBuilder,SwaggerModule, } from nestjs/swagger;import { AppModule } from ./app.module;async functio…

解决iCloud备份显灰问题的完全指南

目录 ​编辑 引言 问题背景 可能的原因 1 网络连接问题 2 ICloud账户异常 3 存储空间不足 4 备份设置问题 5 iOS版本问题 解决方法 3.1 检查网络连接 3.2 检查ICloud账户 3.3 检查存储空间 3.4 检查备份设置 3.5 更新iOS版本 3.6 重启设备 3.7 重置ICloud设置 …

CSC联合培养博士申请亲历|联系外导的详细过程

在CSC申报的各环节中&#xff0c;联系外导获得邀请函是关键步骤。这位联培博士同学的这篇文章&#xff0c;非常详细且真实地记录了申请过程、心理感受&#xff0c;并提出有益的建议&#xff0c;小编特推荐给大家参考。 2024年国家留学基金委公派留学项目即将开始&#xff0c;其…

简单说说redis分布式锁

什么是分布式锁 分布式锁&#xff08;多服务共享锁&#xff09;在分布式的部署环境下&#xff0c;通过锁机制来让多客户端互斥的对共享资源进行访问/操作。 为什么需要分布式锁 在单体应用服务里&#xff0c;不同的客户端操作同一个资源&#xff0c;我们可以通过操作系统提供…

互联网摸鱼日报(2024-02-02)

互联网摸鱼日报(2024-02-02) 博客园新闻 马斯克&#xff1a;Neuralink已探测到神经信号 Linus新年首骂&#xff1a;和谷歌大佬大吵4天&#xff0c;“你的代码就是垃圾” 从零手搓MoE大模型&#xff0c;大神级教程来了 无人出租车深圳中心区收费载客&#xff0c;硅谷同款&am…

【计网·湖科大·思科】实验六 IP数据报的发送和转发流程、默认路由和特定主机路由

&#x1f57a;作者&#xff1a; 主页 我的专栏C语言从0到1探秘C数据结构从0到1探秘Linux &#x1f618;欢迎关注&#xff1a;&#x1f44d;点赞&#x1f64c;收藏✍️留言 &#x1f3c7;码字不易&#xff0c;你的&#x1f44d;点赞&#x1f64c;收藏❤️关注对我真的很重要&…

LLM智能体开发指南

除非你一直生活在岩石下&#xff0c;否则你一定听说过像 Auto-GPT 和 MetaGPT 这样的项目。 这些是社区为使 GPT-4 完全自治而做出的尝试。在其最原始的形式中&#xff0c;代理基本上是文本到任务。你输入一个任务描述&#xff0c;比如“给我做一个贪吃蛇游戏”&#xff0c;并使…

用 Easysearch 帮助大型车企降本增效

最近某头部汽车集团需要针对当前 ES 集群进行优化&#xff0c;背景如下&#xff1a; ES 用于支撑包括核心营销系统、管理支持系统、财务类、IT 基础设施类、研发、自动驾驶等多个重要应用&#xff0c;合计超 50 余套集群&#xff0c;累计数据超 1.5PB 。 本文针对其中一个 ES 集…

升级 FATFS 笔记

最近有朋友希望 AWTK demo 中的 FATFS 能升级到最新版本&#xff0c;在升级的过程中遇到一些小问题&#xff0c;这里做个记录。 1. 升级 FATFS 从官网下载最新代码。更新下面的文件到AWTK项目中&#xff1a; ff.cff.hffsystem.cffunicode.c 下面的文件不需要更新&#xff1…

Compose | UI组件(十二) | Lazy Layout - 列表

文章目录 前言LazyListScope作用域 用来干什么&#xff1f;LazyColumn组件含义&#xff1f;LazyColumn的基本使用LazyColumn Padding设置边距LazyColumn 设置边距 (contentPadding)LazyColumn 为每个子项设置边距 (Arrangement.spacedBy())LazyColumn 根据 rememberLazyListSta…

React从 EMAScript5编程规范到 EMAScript6编程规范过程中的几点改变

在从ECMAScript 5 (ES5)编程规范转换到ECMAScript 6 (ES6)编程规范的过程中&#xff0c;有几个主要的改变&#xff1a; 块级作用域&#xff1a;ES6引入了let和const关键字&#xff0c;允许在块级作用域中声明变量。在ES5中&#xff0c;变量的作用域仅限于函数内部。 箭头函数&…