大厂 算法岗transformer面试题

一,基础原理与数学模型

1.Transformer为何使用多头注意力机制?(为什么不用一个头)

2.Transformer为什么Q和K使用不同的权重矩阵生成?为何不能使用同一个值进行自身的点乘?(注意和第一个问题的区别)

3.Transformer计算attention的时候为何选择点乘而不是加法?两者计算复杂度和效果上有什么区别?

4。为什么在进行softmax之前需要对attention进行scaled?(为什么除以dk的平方根),并使用公式推导进行讲解

5。在计算attention score的时候如何对padding做mask操作?6。为什么在进行多头注意力的时候需要对每个head进行降维?

7。讲一下Transformer的Encoder模块?

8。为何在获取输入词向量之后需要对矩阵乘以embedding size的开方?9。简单介绍Transformer的位置编码?

10。了解哪些关于位置编码的技术?

11。简单讲一下Transformer中的残差结构以及意义。

12。为什么transformer块使用LayerNorm而不是BatchNorm?

13。讲一下BatchNorm技术及其优缺点?

14。简单描述一下Transformer中的前馈神经网络?使用了什么激活函数?相关优缺点?Encoder端和Decoder端是如何进行交互的?

15.Encoder端和Decoder端是如何进行交互的?(在这里可以问一下关于 seq2seq的attention知识)

16.Transformer的并行化提现在哪个地方?Decoder端可以做并行化吗?

17。描述一下wordpiece model和bytepair encoding?Dropout是如何设定的,位置在哪里?Dropout在测试的需要有什么需要注意的吗?

18.Transformer训练的时候学习率是如何设定的?

19.Dropout是如何设定的?

20.Bert的mask为何不学习transformer在attention处进行屏蔽score的技巧?

二,训练与优化

1.Transformer中的可训练Queries,Keys和Values矩阵从哪儿来?

2.Transformer的Feed Forward层在训练的时候到底在训练什么?

3。具体分析Transformer的Embeddings层,Attention层和Feedforward层的复杂度。

4.Transformer的Positional Encoding如何表达相对位置关系?

5.Layer Normalization蕴含的神经网络的假设是什么?

6。从数据的角度分析Transformer中的Decoder和Encoder的依存关系。

7。描述Transformer中的Tokenization的数学原理,运行流程,问题及改进方法。

8。描述把self-attention复杂度从O(n^2)降低到O(n)的方案。

9.Bert的CLS能够有效的表达Sentence Embeddings吗?

10。使用BPE进行Tokenization对于Cross-lingual语言模型的意义?

11。如何训练Transformer处理数据量差异大的多类别数据?

12。如何使用多种类小样本对Transformer训练取得好的分类效果?

13。在输入Embeddings时是否可以使用多方来源的词嵌入?

14。更深更宽的Transformer网络是否意味着更强的预训练模型?

15。如何降低Transformer中Embedding中的参数数量?

16。描述Trasnformer不同Layer之间的FeedForward神经网络之间的联系。

17。如何降低Transformer的Feedforward层的参数数量?18.Transformer的Layer深度过深会可能导致什么现象?

19。如何大规模降低Transformer中Embedding中的参数数量?

三,应用与实践

1。如何使用Transformer实现Zero-shot Learning?

2。描述至少2种对不同训练模型训练出来的Embeddings进行相似度比较的方法。

3。如何使得小模型例如LSTM具有大模型例如Bert的能力?

4。训练后的BERT模型泛化能力的限制是什么?

5.GPT的auto-regressive语言模型架构在信息表示方面有什么缺陷?

6。描述BERT中MLM实现中的缺陷及可能的解决方案。的词嵌入?

四,技术深入与创新应用

1。从数学角度阐明对Transformer任意位置和长度进行Mask的方式。2。描述Encoder和Decoder中Attention机制的不同之处。

3。描述Transformer中Decoder的Embeddinglayers架构设计,运行流程和数学原理。

4。描述Transformer进行Training的全生命周期的在Decoder中是如何进行 Embedding的。

5。描述Transformer进行Inference的全生命周期的在Decoder中是如何进行 Embedding的。

6。如果Transformer采用和Inference同样的流程进行Training,会有什么弊端?7。为何Transformer的Matrix Dimensions是3D的?

8。描述只由一个Encoder和Decoder的Transformer使用了Attention的地方及其功能。

9。描述Training和Inference时Masking在Transformer使用Attention机制的地方的功能和数学实现。

10。描述Transformer的Training Loss工作流程和数学公式。

11。阐述Multi-head Attention机制中通过Linear layer计算QKV的logical和physical partition.

12。阐述Transformer中所有可训练操作的功能。

13。阐述QKV在Transformer中的功能。

14。解释Transformer中Attention Score衡量不同WordsRelevance的原理。

15。描述Transformer如何知道什么样的Weights能更好地表达不同信息部分的注意力。

16。如何减少Transformer中训练后的Word Embeddings的Bias?

17。解决Self-attention和Word与自身Attention的问题?

18.Transformer如何有效表示NLP,CV等AI领域的信息?

19。通过Ground Truth训练Transformer使其具有泛化能力的原因?20.Transformer的Attention计算时为何需要进行Scaling?

21。输入文本词汇的顺序如何由position encoding或multi-head attention实现?

22。描述multi-head attention的实现方式。

23。描述Transformer中non-linear操作的类型和数学原理。

24。为何Transformer论文作者声称"Attention is all you need"?

25。谈一下Teacherforcing的数学原理及其在Transformer中的应用。

五,性能优化与模型改进(7题)

1.Transformer采用Inference流程进行Training的问题?

2.Transformer的Matrix Dimensions为何是3D的?

3。描述单Encoder和Decoder的Transformer使用Attention的地方及其功能。

4.Training和Inference时Masking在Transformer Attention机制中的功能和数学实现。

5。描述Transformer的Training Loss工作流程和数学公式。

6。阐述Multi-headAttention中通过Linearlayer计算QKV的partition.7。如何减少Transformer中训练后的Word Embeddings的Bias?

六,特定应用场景与解决方案(2题)

1。如何使用Transformer实现对话系统并判定用户交流内容是否离题?

2.Transformer训练时学习率和Dropout的设定?

大模型(LLMs)基础面

1目前 主流的开源模型体系 有哪些?

2prefix Decoder和causal Decoder和Encoder-Decoder区别是什么?

3大模型LLM的训练目标是什么?4涌现能力是啥原因?

5为何现在的大模型大部分是Decoder only结构?

6简单 介绍一下 大模型[LLMs]?

7大模型[LLMs]后面跟的175B,60B,540B等指什么?

8大模型[LLMs]具有什么优点?9大模型[LLMs]具有什么缺点?

大模型(LLMs)进阶面

一,什么是生成式大模型?

二,大模型是怎么让生成的文本丰富而不单调的呢?三,LLMs复读机问题

3.1什么是LLMs复读机问题?

3.2为什么会出现LLMs复读机问题?

3.3如何缓解 LLMs 复读机问题?

3.3.1 Unlikelihood Training

3.3.2引入噪声

3.3.3 Repetition Penalty

3.3.4 Contrastive Search

3.3.5 Beam Search

3.3.6 TopK sampling

3.3.8 Temperature

3.7 Nucleus sampler匠

3.3.9 No repeat ngram size

3.3.10重复率指标检测

3.3.11后处理和过滤

3.3.12人工干预和控制四,llama系列问题

4.1llama输入句子长度理论上可以无限长吗?

五,什么情况用Bert模型,什么情况用LLaMA,ChatGLM类大模型,咋选?

六,各个专业领域是否需要各自的大模型来服务?

七,如何让大模型处理更长的文本?

大模型(LLMs)微调面

1。如果想要在某个模型基础上做全参数微调,究竟需要多少显存?2。为什么SFT之后感觉LLM傻了?

3.SFT指令微调数据 如何构建?

4。领域模型Continue PreTrain数据选取?

5。领域数据训练后,通用能力往往会有所下降,如何缓解模型遗忘通用能力?

6。领域模型Continue PreTrain,如何上模型在预训练过程中就学习到更多的知

7。进行SFT操作的时候,基座模型选用Chat还是Base?

8。领域模型微调 指令&数据输入格式要求?

9。领域模型微调 领域评测集 构建?

10。领域模型词表扩增是不是有必要的?

11。如何训练自己的大模型?

12。训练中文大模型有啥经验?

13。指令微调的好处?

14。预训练和微调哪个阶段注入知识的?

15。想让模型学习某个领域或行业的知识,是应该预训练还是应该微调?16。多轮对话任务如何微调模型?

17。微调后的模型出现能力劣化,灾难性遗忘是怎么回事?

18。微调模型需要多大显存?

19。大模型LLM进行SFT操作的时候在学习什么?

20。预训练和SFT操作有什么不同

21.样本量规模增大,训练出现OOM错

22。大模型LLM进行SFT 如何对样本进行优化?

23。模型参数迭代实验

24。微调大模型的一些建议

25。微调大模型时,如果batch size设置太小会出现什么问题?

26。微调大模型时,如果batch size设置太大会出现什么问题?

27。微调大模型时,batch size 如何设置问题?

28。微调大模型时,优化器如何?

29。哪些因素会影响内存使用?

30。进行领域大模型预训练应用哪些数据集比较好?

31。用于大模型微调的数据集如何构建?

32。大模型训练loss突刺原因和解决办法

32.1大模型训练loss突刺是什么?

32.2为什么大模型训练会出现loss突刺?

32.3大模型训练loss突刺 如何解决?

大模型学习资料领取https://mp.weixin.qq.com/s/DvIaQKLyNgdPk4H4AalgPg

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1184390.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深夜的“闪电侠”:在线监测如何让电网故障秒级“自愈”

深夜,雷雨交加。一道闪电划过,小区突然陷入黑暗。然而就在你刚摸到手机,准备发朋友圈吐槽时,灯光瞬间恢复了。前后不过几秒钟,快得让人以为是错觉。这不是电网魔法,而是现代电力系统的“智慧大脑”——在线…

加入全球家办精英圈层——HKFA环球家族办公室总会(HKFAGFOA)的会员体系

对于致力于服务高净值家族的机构与专业人士而言,选择一个有分量的业界平台至关重要。HKFA环球家族办公室总会(HKFA Global Family Office Association,简称GFOA) 正是这样一个平台。HKFA环球家族办公室总会(HKFAGFOA&a…

Flutter艺术探索-Flutter异步编程:Future、async/await深度解析

Flutter异步编程:Future、async/await深度解析 引言 开发移动应用时,我们总会遇到一些“慢活儿”:比如等网络返回数据、读写本地文件,或者查一下数据库。如果让这些操作卡住界面,用户体验可就糟透了。好在 Flutter 使用…

【AI必学】RAG多跳问答总翻车?SentGraph用“句子级推理图“实现降本增效30%!小模型也能碾压SOTA!

主要关注LLM、RAG、Agent等AI前沿技术,每天分享业界最新成果和实战案例。 一、为什么传统 RAG 会“断链” 单跳场景:把文档切成 200 字左右的 chunk,做向量相似度检索 → LLM 直接答,够用。多跳场景:需要把 2-4 份文…

Flutter艺术探索-Flutter错误处理:try-catch与异常捕获

Flutter错误处理实战:掌握try-catch与异常捕获 引言 在Flutter应用开发中,一套健壮的错误处理机制,往往是决定应用稳定性和用户体验的关键。Dart语言虽然提供了基于异常的错误处理模型,但在真实的Flutter项目中,我们还…

【AI黑科技】超图记忆HGMEM:让RAG系统从“检索狂魔“变身“推理大师“!附开源代码!

主要关注LLM、RAG、Agent等AI前沿技术,每天分享业界最新成果和实战案例。 在大型语言模型(LLM)时代,**检索增强生成(RAG)**已成为处理长文本和复杂推理任务的重要技术。然而,传统的单步RAG方法…

GEO理论奠基人罗小军深度解析:三大核心证据链条支撑下的行业公认地位

2026年,GEO(生成式引擎优化)已从前沿概念演变为企业战略布局的核心。在这一新兴赛道中,“GEO理论奠基人”不仅是一个荣誉称号,更代表着对行业发展方向的定义权与话语权。目前,业界普遍将此头衔归于深圳市猛…

Flutter艺术探索-Flutter数据传递:InheritedWidget原理与应用

Flutter数据传递:深入理解InheritedWidget的原理与应用 写在前面:我们为什么需要InheritedWidget? 在Flutter开发中,构建一个清晰、可维护的架构,有一个绕不开的核心问题:如何在Widget树的不同层级之间&…

AI大厂都在偷偷研究!BambooKG知识图谱架构,让大模型不再“胡说八道“,程序员必学!

🌿 背景 RAG(Retrieval-Augmented Generation) 虽能缓解大模型幻觉问题,但将检索文本块视为独立,难以进行多跳推理或跨文档关系推理。知识图谱(KG) 通过三元组(主语-谓语-宾语&…

AI+RPA+飞书:重构HR智能招聘全流程,效率倍增300%

在数字化转型深度渗透人力资源领域的当下,RPA(机器人流程自动化)技术与AI、协同平台的融合,正打破传统招聘的效率瓶颈。从简历筛选到入职办结的全链条中,RPA作为自动化核心工具,搭配AI的智能决策与飞书的生…

AI智能体开发“脏活累活“实录:放弃高层抽象,拥抱原生可控性才是真香!大模型开发者必看避坑指南

在大模型技术飞速迭代的今天,智能体(Agent)的构建本应驶入快车道,但实际开发中,工具调用、多步推理、状态管理等核心环节仍充斥着大量 “脏活累活”。是抽象层设计不足?平台差异过大?还是尚未探…

【AI编程】上下文窗口告急?Cursor五大“动态加载“策略让AI助手效率起飞,token消耗直接砍半!

写在前面 前两天写了一篇关于 [Manus 上下文工程]的学习笔记,分享了 Manus 团队在管理 Agent 上下文(Context)方面的三大核心策略:缩减(Reduction)、隔离(Isolation)、卸载&#xf…

Flutter艺术探索-Flutter性能优化基础:const与const构造函数

Flutter 性能优化基础:深入理解 const 与 const 构造函数 引言:为什么我们应该关心 const? 在 Flutter 开发中,咱们可能都遇到过这样的场景:界面稍微复杂一点,滚动起来就感觉不那么跟手,或者频繁…

【Claude Cowork】核心技术架构与实现原理——桌面级Agentic AI的技术革命

文章目录目录一、Cowork 核心定位与设计理念二、Cowork 底层核心技术架构拆解2.1 底层隔离执行层:基于AVF的虚拟化安全架构2.2 中层Agent核心层:Claude Agent SDK与三大核心技术(1)MCP协议:AI时代的「通用接口」&#…

首程控股(0697.HK)机器人投资组合回报超 4 倍 直播首秀揭秘产业变现新路径

近日,机器人产业赛道传来重磅消息——首程控股(0697.HK)宣布其机器人业务板块即将于本周日(1月18日)晚上7:50,在抖音号及视频号同步开启直播首秀。这不仅是首程在公众传播层面的重要动作,更标志着其经过数年深耕,已在机器人领域构建起从产业投资、生态合作到市场拓展的完整价值…

小白必看!RAG技术让大模型不再“胡说八道“,5分钟入门检索增强生成

RAG(Retrieval-Augmented Generation,检索增强生成)是一种结合了信息检索(Retrieval)和文本生成(Generation)的自然语言处理技术。它旨在通过从外部知识源(如数据库、文档或互联网&a…

API推荐界的“断舍离“:大模型让推荐列表自己“做减法“,准确率暴涨21.59%,小白也能秒懂!

“固定 top-N”就像给所有脚塞同一码鞋——83%的API推荐因此错配。该研究用TinyLlama做“伸缩尺”,让推荐列表随场景自动长短,同步吐出解释;8217个真实 mashup 测试,平均只推1.79个API就命中81.3%,比最佳基线猛涨21.59…

2026评测:黑龙江中低压电气厂商谁更受青睐,工控产品/电气自动化/施耐德电气/中低压电气,中低压电气公司口碑推荐 - 品牌推荐师

评测背景 随着东北地区工业升级与基础设施建设的持续推进,中低压电气市场迎来结构性增长机遇。黑龙江作为东北工业重镇,对电气产品的稳定性、技术适配性及服务响应效率提出更高要求。本次评测聚焦黑龙江及周边市场主…

社区终端发布新版,进一步去掉枷锁,让使用更简单

根据社区朋友@万码千钧的反馈,做了本次修改:去除了博客园强制发布流程,如果不需要,从配置开始置空即可。 发表周总结时,也不再强制使用 Edge 浏览器,有哪个用哪个。 添加了参数控制是否公开发表,添加--no-publi…

RPA进化史深度解析:从录屏工具到智能数字员工

每天面对大量重复的数据复制粘贴、跨系统表单填报、订单信息核对,耗费大量工时却难创造核心价值——这是多数职场人的日常困境。而RPA机器人的出现,正打破这种低效循环,成为数字化转型中的关键工具。或许你对RPA的名称并不陌生,但…