多模态
CLIP原理
描述对比学习函数
BLIP BLIP2架构和区别
LLaVa和BLIP2区别
LLaVa两阶段的训练过程和数据集的构建
LLaVa1.5 1.6的改进
cross-attention和self-attention区别
cross-attention在图文匹配中q和kv分别指什么,在机器翻译中分别指什么
one shot,zero shot,few shot区别
对多模态领域的看法
大语言模型
chatGLM和chatGPT区别
LLAMA的改进点
LLAMA中RMSNorm比LN的优势
LLAMA中旋转位置编码
除此之外会问还了解什么大语言模型
微调的方式(p-tuning LoRA原理)
LoRA初始化方式
自然语言
Bert结构和预训练任务
Bert和GPT区别
为什么GPT是decoder-only
GPT的训练过程
深度学习
transformer结构描述
注意力机制描述
为什么用多头注意力机制
attention的复杂度及为什么用位置编码
attention中为什么除k的维度开根号
残差的作用
BN和LN区别
transformer中用BN可以吗
BN和Dropout在训练和推理时的区别
ViT的结构描述
图像的自编码是怎么做的
优化器的了解
描述下动量的过程
CNN的参数量计算
CNN RNN LSTM transformer区别
空洞卷积
NMS描述
IOU
目标检测单双阶段
anchor free和anchor base
Python
set和list区别 做插入操作时的复杂度
tuple和list区别
*和**传参区别
Python装饰器