100 个 NLP 面试问题
一、 说明
对于技术磨练中,其中一项很酷的技能培训是提问。不知道答案并没有多大的错;错就错在不谷歌这些疑问。本篇就是在面试之前,您将此文档复制给自己,做一个系统的模拟实战。
二、经典NLP问题(共8题)
TF-IDF 和 ML ;
-  从头开始编写 TF-IDF。 
-  什么是TF-IDF中的归一化? 
-  为什么在我们这个时代需要了解TF-IDF,如何在复杂的模型中使用它? 
-  解释朴素贝叶斯的工作原理。你可以用它来做什么? 
-  SVM 如何容易出现过拟合? 
-  解释文本预处理的可能方法(词形还原和词干提取)。您知道哪些算法,在什么情况下会使用它们? 
-  你知道哪些文本相似度指标? 
-  解释余弦相似度和余弦距离的区别。以下哪个值可以是负数?你会如何使用它们? 
三、计量指标 (7题)
-  用简单的语言解释精确度和回忆力,如果没有 F1 分数,你会看什么? 
-  在什么情况下,你会观察到特异性的变化? 
-  你什么时候会看宏观指标,什么时候看微观指标?为什么存在加权指标? 
-  什么是困惑?我们可以用什么来考虑它? 
-  什么是 BLEU 指标? 
-  解释不同类型的ROUGE指标之间的区别? 
-  BLUE和ROUGE有什么区别? 
四、WORD2VEC(9题)
-  解释Word2Vec是如何学习的?什么是损失函数?什么是最大化? 
-  您知道哪些获取嵌入的方法?什么时候会更好? 
-  静态嵌入和上下文嵌入有什么区别? 
-  你知道的两种主要架构是什么,哪一种学得更快? 
-  Glove、ELMO、FastText 和 Word2Vec 有什么区别? 
-  什么是负抽样,为什么需要负抽样?您还知道 Word2Vec 的哪些其他技巧,以及如何应用它们? 
-  什么是密集嵌入和稀疏嵌入?请举例说明。 
-  为什么嵌入的维度很重要? 
-  在短文本数据上训练Word2Vec时会出现什么问题,如何处理? 
五、RNN 和 CNN(7题)
-  一个简单的 1 层 RNN 有多少个训练参数? 
-  RNN训练是如何进行的? 
-  RNN存在哪些问题? 
-  您知道哪些类型的 RNN 网络?解释 GRU 和 LSTM 之间的区别? 
-  我们可以在这样的网络中调整哪些参数?(堆垛,层数) 
-  什么是RNN的消失梯度?你如何解决这个问题? 
-  为什么要在 NLP 中使用卷积神经网络,如何使用它?你怎么能在注意力范式中比较CNN? 
六、NLP 和 TRANSFORMERS
注意力和变压器架构 (15题)
 32.你如何计算注意力?(补充:它被提议用于什么任务,为什么?
-  注意力的复杂性?将其与 RNN 的复杂性进行比较。 
-  比较 RNN 和注意力。在什么情况下你会使用注意力,什么时候 RNN? 
-  从头开始写注意力。 
-  解释注意中的掩饰。 
-  自注意力矩阵的维度是多少? 
-  BERT和GPT在注意力计算方面有什么区别? 
-  变压器中嵌入层的尺寸是多少? 
-  为什么嵌入被称为上下文?它是如何工作的? 
-  变压器中使用什么,层规范或批量规范,为什么? 
-  为什么变压器有PreNorm和PostNorm? 
-  解释软注意力和硬注意力(局部/全局)之间的区别? 
-  解释多头注意力。 
-  您还知道哪些其他类型的注意力机制?这些修改的目的是什么? 
-  随着人头数量的增加,自我注意力如何变得更加复杂? 
七、变压器型号类型 (7题)
-  为什么 BERT 在很大程度上落后于 RoBERTa ,你能从 RoBERTa 中学到什么? 
-  什么是 T5 和 BART 型号?它们有何不同? 
-  什么是与任务无关的模型?请举例说明。 
-  通过比较 BERT、GPT 和 T5 来解释 transformer 模型。 
-  BERT、GPT等在模型知识方面存在哪些主要问题?如何解决这个问题? 
-  类似解码器的 GPT 在训练和推理过程中是如何工作的?有何不同? 
-  解释变压器模型中头部和层之间的区别。 
八、位置编码 (6题)
-  为什么在变压器模型的嵌入中丢失了有关位置的信息? 
-  解释位置嵌入的方法及其优缺点。 
-  为什么我们不能简单地添加一个带有标记索引的嵌入? 
-  我们为什么不训练位置嵌入? 
-  什么是相对和绝对位置编码? 
-  详细解释旋转位置嵌入的工作原理。 
九、预训练 (4题)
-  因果语言建模是如何工作的? 
-  我们什么时候使用预训练模型? 
-  如何从头开始训练变压器?解释一下你的管道,在什么情况下你会这样做? 
-  除了 BERT 和 GPT 之外,您还知道哪些模型可用于各种预训练任务? 
十、分词器 (9题)
-  您知道哪些类型的分词器?比较它们。 
-  你能扩展一个分词器吗?如果是,在什么情况下你会这样做?你什么时候会重新训练一个分词器?添加新代币时需要做什么? 
-  普通代币与特殊代币有何不同? 
-  为什么变压器中不使用词形还原?为什么我们需要代币? 
-  如何训练分词器?用 WordPiece 和 BPE 的例子来解释。 
-  CLS向量占据什么位置?为什么? 
-  BERT 中使用了什么分词器,GPT 中使用了哪个分词器? 
-  解释现代分词器如何处理词汇表外的单词? 
-  分词器词汇大小有什么影响?在新培训的情况下,您将如何选择它? 
十一、训练 (8题)
-  什么是阶级失衡?如何识别它?说出解决此问题的所有方法。 
-  在推理过程中可以使用 dropout 吗,为什么? 
-  Adam 优化器和 AdamW 有什么区别? 
-  消耗的资源如何随着梯度积累而变化? 
-  如何优化训练期间的资源消耗? 
-  你知道哪些分布式训练方法? 
-  什么是文本增强?说出您知道的所有方法。 
-  为什么填充物的使用频率较低?取而代之的是做什么? 
-  解释热身是如何工作的。 
-  解释渐变裁剪的概念? 
-  教师强迫如何工作,请举例说明? 
-  为什么以及如何使用跳过连接? 
-  什么是适配器?我们可以在哪里以及如何使用它们? 
-  解释度量学习的概念。你知道什么方法? 
十二、推理 (4题)
-  softmax中的温度控制什么?你会设置什么值? 
-  解释生成中的采样类型?top-k、top-p、细胞核采样? 
-  波束搜索的复杂性是什么,它是如何工作的? 
-  什么是句子嵌入?您可以通过哪些方式获得它? 
十三、LLM (13题)
-  LoRA是如何工作的?您将如何选择参数?想象一下,我们想要微调一个大型语言模型,将 LORA 与小 R 一起应用,但该模型仍然不适合内存。还能做些什么? 
-  prefix tuning , p-tuning 和 prompt tuning 和有什么不一样? 
-  解释缩放定律。 
-  解释LLM训练的所有阶段。我们可以从哪些阶段弃权,在什么情况下? 
-  RAG是如何工作的?它与小镜头 KNN 有何不同? 
-  你知道什么量化方法?我们可以微调量化模型吗? 
-  如何防止 LLM 中的灾难性遗忘? 
-  讲解KV缓存、分组查询注意力和多查询注意力的工作原理。 
-  解释 MixTral 背后的技术,它的优缺点是什么? 
-  你好吗?事情进展如何? 
如果你觉得这些信息有帮助,并想以其他方式感谢我。