算法暑期实习机会快结束了,校招大考即将来袭。
当前就业环境已不再是那个双向奔赴时代了。求职者在变多,岗位在变少,要求还更高了。
最近,我们陆续整理了很多大厂的面试题,帮助球友解惑答疑和职业规划,分享了面试中的那些弯弯绕绕。
分享100道大模型面试八股文,喜欢记得点赞、收藏、关注:
-  你了解ReAct吗,它有什么优点? 
-  解释一下langchain Agent的概念 
-  langchain 有哪些替代方案? 
-  langchain token计数有什么问题?如何解决? 
-  LLM预训练阶段有哪几个关键步骤? 
-  RLHF模型为什么会表现比SFT更好? 
-  参数高效的微调(PEFT)有哪些方法? 
-  LORA微调相比于微调适配器或前缀微调有什么优势? 
-  你了解过什么是稀疏微调吗? 
-  训练后量化(PTQ)和量化感知训练(QAT)有什么区别? 
-  LLMs中,量化权重和量化激活的区别是什么? 
-  AWQ量化的步骤是什么? 
-  介绍一下GPipe推理框架 
-  矩阵乘法如何做数量并行? 
-  请简述TPPO算法流程,它跟TRPO的区别是什么? 
-  什么是检索增强生成(RAG)? 
-  目前主流的中文向量模型有哪些? 
-  为什么LLM的知识更新很困难? 
-  RAG和微调的区别是什么? 
-  大模型一般评测方法及其准是什么? 
-  什么是Kv cache技术,它具体是如何实现的? 
-  DeepSpeed推理对算子融合做了哪些优化? 
-  简述一下FlashAttention的原理 
-  MHA、GQA、MQA三种注意力机制的区别是什么? 
-  请介绍一下微软的ZeRO优化器 
-  Paged Attention的原理是什么,解决了LLM中的什么问题? 
-  什么是投机采样技术,请举例说明? 
-  简述GPT和BERT的区别 
-  讲一下GPT系列模型的是如何演进的? 
-  为什么现在的大模型大多是decoder-only的架构? 
-  讲一下生成式语言模型的工作机理 
-  哪些因素会导致LLM中的偏见? 
-  LLM中的因果语言建模与掩码语言建模有什么区别? 
-  如何减轻LLM中的“幻觉”现象? 
-  解释ChatGPT的“零样本”和“少样本”学习的概念 
-  你了解大型语言模型中的哪些分词技术? 
-  如何评估大语言模型(LLMs)的性能? 
-  如何缓解LLMs复读机问题? 
-  请简述下Transformer基本原理 
-  为什么Transformer的架构需要多头注意力机制? 
-  为什么transformers需要位置编码? 
-  transformer中,同一个词可以有不同的注意力权重吗? 
-  Wordpiece与BPE之间的区别是什么? 
-  有哪些常见的优化LLMs输出的技术? 
-  GPT-3拥有的1750亿参数,是怎么算出来的? 
-  温度系数和top-p、top-k参数有什么区别? 
-  为什么transformer块使用LayerNorm而不是BatchNorm? 
-  介绍一下post layer norm和pre layer norm的区别 
-  什么是思维链(CoT)提示? 
-  你觉得什么样的任务或领域适合用思维链提示? 
-  目前主流的开源模型体系有哪些? 
-  prefix LM和causal LM区别是什么? 
-  涌现能力是啥原因? 
-  大模型LLM的架构介绍? 
-  什么是LLMs复读机问题? 
-  为什么会出现LLMs复读机问题? 
-  如何缓解LLMs复读机问题? 
-  llama输入句子长度理论上可以无限长吗? 
-  什么情况下用Bert模型,什么情况下用LLama、ChatGLM类大模型,咋选? 
-  各个专长领域是否需要各自的大模型来服务? 
-  如何让大模型处理更长的文本? 
-  为什么大模型推理时显存涨的那么多还一直占着? 
-  大模型在gpu和cpu上推理速度如何? 
-  推理速度上,int8和fp16比起来怎么样? 
-  大模型有推理能力吗? 
-  大模型生成时的参数怎么设置? 
-  有哪些省内存的大语言模型训练/微调/推理方法? 
-  如何让大模型输出台规化 
-  应用模式变更 
-  大模型怎么评测? 
-  大模型的honest原则是如何实现的? 
-  模型如何判断回答的知识是训练过的已知的知识,怎么训练这种能力? 
-  奖励模型需要和基础模型一致吗? 
-  RLHF在实践过程中存在哪些不足? 
-  如何解决人工产生的偏好数据集成本较高,很难量产问题? 
-  如何解决三个阶段的训练(SFT->RM->PPO)过程较长,更新迭代较慢问题? 
-  如何解决PPO的训练过程中同时存在4个模型(2训练,2推理),对计算资源的要求较高问题? 
-  如何给LLM注入领域知识? 
-  如果想要快速检验各种模型,该怎么办? 
-  预训练数据Token重复是否影响模型性能? 
-  什么是位置编码? 
-  什么是绝对位置编码? 
-  什么是相对位置编码? 
-  旋转位置编码RoPE思路是什么? 
-  旋转位置编码RoPE有什么优点? 
-  什么是长度外推问题? 
-  长度外推问题的解决方法有哪些? 
-  ALiBi(Attention with Linear Biases)思路是什么? 
-  ALiBi(Attention with Linear Biases)的偏置矩阵是什么?有什么作用? 
-  ALiBi(Attention with Linear Biases)有什么优点? 
-  Layer Norm的计算公式写一下? 
-  RMS Norm的计算公式写一下? 
-  RMS Norm相比于Layer Norm有什么特点? 
-  Deep Norm思路? 
-  写一下Deep Norm代码实现? 
-  Deep Norm有什么优点? 
-  LN在LLMs中的不同位置有什么区别么?如果有,能介绍一下区别么? 
-  LLMs各模型分别用了哪种Layer normalization? 
-  介绍一下FFN块计算公式? 
-  介绍一下GeLU计算公式? 
-  介绍一下Swish计算公式? 
-  介绍一下使用GLU线性门控单元的FFN块计算公式? 
-  介绍一下使用GeLU的GLU块计算公式? 
-  介绍一下使用Swish的GLU块计算公式? 
面试精选
-  《大模型面试宝典》(2024版) 正式发布! 
-  一文搞懂 Transformer 
-  一文搞懂 Attention(注意力)机制 
-  一文搞懂 Self-Attention 和 Multi-Head Attention 
-  一文搞懂 BERT(基于Transformer的双向编码器) 
-  一文搞懂 GPT(Generative Pre-trained Transformer) 
-  一文搞懂 Embedding(嵌入) 
-  一文搞懂 Encoder-Decoder(编码器-解码器) 
-  一文搞懂大模型的 Prompt Engineering(提示工程) 
-  一文搞懂 Fine-tuning(大模型微调) 
-  一文搞懂 LangChain 
-  一文搞懂 LangChain 的 Retrieval 模块 
-  一文搞懂 LangChain 的智能体 Agents 模块 
-  一文搞懂 LangChain 的链 Chains 模块