大模型学习全攻略:35个核心问题解答+独家AGI-CSDN资料包_2026年AI大模型岗面试面经

本文是一份大模型学习指南,以问答形式整理了35个关键问题,涵盖主流开源模型体系、Transformer架构、预训练微调范式等核心技术。详细介绍了GPT、BERT等模型特点与区别,提供了不同场景下的模型选择建议,并针对过拟合、灾难性遗忘等训练难题给出解决方案。文末附有大模型学习路线图、实战案例和视频资料包,帮助零基础小白系统学习大模型技术。


学习一门新技术,最大的障碍往往不是“难”,而是“不知道自己不知道什么”。尤其是在拥有大模型助手之后,这个问题变得更加突出:只要你能提出问题,大模型就能给出高质量的答案。但前提是——你得先知道该问什么。这就是我们需要绘制一张“技术地图”的原因,它可以帮助我们建立完整的知识体系,理清“有哪些内容可以学习”,从而能够提出自己的问题。

前排提示,文末有大模型AGI-CSDN独家资料包哦

1、主流的开源大模型体系有哪些,并简要介绍它们的特点?

这个问题考察面试者对当前大模型生态的了解,包括如 Transformer-based 模型(如 BERT, GPT 系

列)、T5、Switch Transformer 等,以及它们的架构特点和应用场景。

2、解释 prefix LM 和 causal LM 的区别,并给出实际应用案例。

本题涉及语言模型的两种不同模式,前者可用于双向上下文预测,后者仅基于过去的信息进行预测,例如 GPT 系列就是典型的 causal LM。

3、如何定义和理解大模型中的“涌现能力”,并举例说明?

考察面试者对大模型高级特性的理解,涌现能力通常指模型在处理复杂任务时展现出的、未被直接编程的高级技能,如解决谜题、代码生成等。

4、简述 GPT 和BERT 模型的主要区别,以及它们各自的优势。

GPT 是生成式的 decoder-only 模型,而 BERT 是预训练的 encoder 模型,用于理解和生成文本的

侧重点不同。

5、描述生成式语言模型的工作原理,并解释它如何不同于判别式模型。

包括如何通过学习数据分布来生成新样本,与判别式模型(如分类器)专注于区分不同类别的方法对比。

6、大模型训练中如何应对“灾难性遗忘”问题?

可以讨论连续学习中的策略,如经验回放、正则化方法、参数隔离等。

7、哪些因素可能导致大模型(LLMs)出现偏见,如何减轻这种偏见?

包括数据偏差、算法设计、训练过程中的强化等,减轻偏见的方法可能涉及数据多样化、去偏算法、公平性评估工具等。

8、解释并比较 AE(自动编码器)、VAE(变分自动编码器)、GAN

(生成对抗网络)的工作机制及其差异。

关注它们的结构、训练目标和应用场景,特别是 VAE 的似然下界最大化与 GAN 的对抗训练过程。

9、在微调大模型时,选择合适的数据集和微调策略至关重要,请阐述其考虑因素。

包括数据的相关性、规模、质量,以及微调时的学习率、迭代次数、早停策略等。

10、如何评价大模型的性能指标,除了准确率之外,还有哪些关键指标?

包括但不限于 perplexity、BLEU、ROUGE、F1 分数、AUC-ROC 曲线等,以及对计算效率、模型大小的考量。

11、目前主流的大模型体系有哪些?

目前主流的开源大模型体系包括以下几个:

GPT(Generative Pre-trained Transformer)系列:由 OpenAI 发布的一系列基于 Transformer 架构的语言模型,包括 GPT-1、GPT-2、GPT-3、ChatGPT 等。GPT 模型通过在大规模无标签文本上进行预训练,然后在特定任务上进行微调,具有很强的生成能力和语言理解能力。

BERT ( Bidirectional Encoder Representations from Transformers ) : 由 Google 发 布 的 一 种 基 于Transformer 架构的双向预训练语言模型。BERT 模型通过在大规模无标签文本上进行预训练,然后在下游任务上进行微调,具有强大的语言理解能力和表征能力。

XLNet:由 CMU 和 Google Brain 发布的一种基于 Transformer 架构的自回归预训练语言模型。XLNet 模型通过自回归方式预训练,可以建模全局依赖关系,具有更好的语言建模能力和生成能力。

RoBERTa:由 Meta 发布的一种基于 Transformer 架构的预训练语言模型。RoBERTa 模型在 BERT 的基础上进行了改进,通过更大规模的数据和更长的训练时间,取得了更好的性能。 T5(Text-to-Text Transfer Transformer):由 Google 发布的一种基于 Transformer 架构的多任务预训练语言模型。T5 模型通过在大规模数据集上进行预训练,可以用于多种自然语言处理任务,如文本分类、机器翻译、问答等。

这些大模型在自然语言处理领域取得了显著的成果,并被广泛应用于各种任务和应用中。

12、涌现能力是啥原因?

大模型的涌现能力主要是由以下几个原因:

数据量的增加:随着互联网的发展和数字化信息的爆炸增长,可用于训练模型的数据量大大增加。更多的数据可以提供更丰富、更广泛的语言知识和语境,使得模型能够更好地理解和生成文本。

计算能力的提升:随着计算硬件的发展,特别是图形处理器(GPU)和专用的 AI 芯片(比如:TPU)的出现,计算能力大幅提升。这使得训练更大、更复杂的模型成为可能,从而提高了模型的性能和涌现能力。

模型架构的改进:近年来,一些新的模型架构被引入,比如:Transformer,它在处理序列数据上表现出色。

这些新的架构通过引入自注意力机制等技术,使得模型能够更好地捕捉长距离的依赖关系和语言结构,提高了模型的表达能力和生成能力。

预训练和微调的方法:预训练和微调是一种有效的训练策略,可以在大规模无标签数据上进行预训练,然后在特定任务上进行微调。这种方法可以使模型从大规模数据中学习到更丰富的语言知识和语义理解,从而提高模型的涌现能力。

综上所述,大模型的涌现能力是由数据量的增加、计算能力的提升、模型架构的改进以及预训练和微调等因素共同作用的结果。这些因素的进步使得大模型能够更好地理解和生成文本,为自然语言处理领域带来了显著的进展。

13、解释Transformer 架构,并说明为什么它在大模型中如此重要。

答案:Transformer 是一种基于自注意力机制的深度学习模型,它通过并行处理输入序列的所有位置,显著提高了处理速度。它放弃了传统 RNN 或 LSTM 中的循环结构,使用多头自注意力和位置编码来捕获序列中的长距离依赖关系。在大模型中,Transformer 架构因其高效并行计算能力和强大的语言理解能力而成为首选。

14、模型的“预训练+微调”范式是什么意思?

答案:预训练+微调是指首先在一个大规模无标注数据集上对模型进行预训练,学习通用的语言表示。之后,根据特定任务对模型进行微调,即在有标签的数据集上进行额外训练,使其适应特定任务如问答、翻译或情感分析。这种方法有效利用了大数据,并显著提升了模型在各种任务上的性能。

15、如何在大模型训练中解决计算资源和成本问题?

答案:解决资源和成本问题的策略包括:使用更高效的硬件(如 TPU、高性能 GPU),分布式训练以分散计算负担,模型并行化技术,以及模型压缩和量化技术减少模型大小和运算需求。此外,使用数据增强和活跃学习策略减少所需数据量也是有效手段。

16、解释过拟合和欠拟合,以及在大模型训练中如何避免这些问题。

答案:过拟合指模型在训练数据上表现很好,但在新数据上泛化能力差;欠拟合则是模型在训练和测试数据上均表现不佳。避免过拟合可通过正则化、早停、dropout 等方法;避免欠拟合则需要增加模型复杂度、更多训练数据或改进模型架构。

17、如何评估大模型的生成质量?

答案:生成质量可以通过多种指标评估,包括 Perplexity(对于语言模型)、BLEU、ROUGE、METEOR等用于机器翻译或文本摘要的指标,以及更主观的评估如人类评价。最近,像 BERTScore 这样的基于语义相似度的指标也变得流行。

18、解释“注意力机制”及其在大模型中的应用。

答案:注意力机制允许模型在处理输入序列时动态地分配不同的权重给不同的部分,重点关注最相关的部分。在大模型中,多头自注意力是 Transformer 架构的核心,使得模型能够同时关注输入的不同方面,从而更有效地捕捉复杂的语言结构和语境信息。

19、如何在大模型中实现公平性和可解释性?

答案:实现公平性需要从数据收集开始,确保数据多样性且无偏见,使用去偏算法和公平性评估工具。可解释性可通过提供注意力权重可视化、特征重要性解释、以及使用更简单的解释模型(如 LIME、SHAP)来实现,帮助理解大模型决策过程。

20、微调大模型时,如何选择合适的数据集和调整策略?

答案:选择数据集时需考虑数据的相关性、质量和规模,确保数据能反映目标任务的需求。调整策略包括选择合适的初始学习率、使用学习率调度、正则化防止过拟合、以及早停等。此外,小样本微调和数据增强也是提升效果的策略。

21、如何处理大模型中的“长尾分布”问题?

答案:长尾分布意味着数据集中某些类别或事件的频率远低于其他类别。解决此问题的方法包括重采样(过采样少数类或欠采样多数类)、使用加权损失函数给予不同样本不同权重,以及生成合成数据来平衡各类别。

22、在大模型开发中,如何监控和调试模型性能?

答案:监控模型性能通常涉及设置性能指标(如准确率、损失函数值)的实时跟踪,以及对模型训练过程中的资源使用(CPU/GPU 利用率、内存占用)进行监测。调试时,可以使用梯度检查、模型可视化工具(如 TensorBoard)来观察模型内部状态,以及进行错误分析来定位问题。

23、大模型如何选型?如何基于场景选用 ChatGLM、LlaMa、 Bert 类大模型?

选择使用哪种大模型,取决于具体的应用场景和需求。下面是一些指导原则。

ChatGLM 大模型:ChatGLM 是一个面向对话生成的大语言模型,适用于构建聊天机器人、智能客服等对话系统。如果你的应用场景需要模型能够生成连贯、流畅的对话回复,并且需要处理对话上下文、生成多轮对话等,ChatGLM 模型可能是一个较好的选择。ChatGLM 的架构为 Prefix Decoder,训练语料为中英双语,中英文比例为 1:1。所以适合于中文和英文文本生成的任务。

LlaMA 大模型:LLaMA(Large Language Model Meta AI)包含从 7B 到 65B 的参数范围,训练使用多达 14,000 亿 tokens 语料,具有常识推理、问答、数学推理、代码生成、语言理解等能力。

它由一个 Transformer 解码器组成。训练预料主要为以英语为主的拉丁语系,不包含中日韩文。所以适合于英文文本生成的任务。

Bert 大模型:Bert 是一种预训练的大语言模型,适用于各种自然语言处理任务,如文本分类、命名实体识别、语义相似度计算等。如果你的任务是通用的文本处理任务,而不依赖于特定领域的知识或语言风格,Bert 模型通常是一个不错的选择。Bert 由一个 Transformer 编码器组成,更适合于NLU 相关的任务。

在选择模型时,还需要考虑以下因素:

数据可用性:不同模型可能需要不同类型和规模的数据进行训练。确保你有足够的数据来训练和微调所选择的模型。计算资源:大模型通常需要更多的计算资源和存储空间。确保你有足够的硬件资源来支持所选择的模型的训练和推理。

预训练和微调:大模型通常需要进行预训练和微调才能适应特定任务和领域。了解所选择模型的预训练和微调过程,并确保你有相应的数据和时间来完成这些步骤。

最佳选择取决于具体的应用需求和限制条件。在做出决策之前,建议先进行一些实验和评估,以确定哪种模型最适合你的应用场景。

24、各个专业领域是否需要专用的大模型来服务?

A4:各个专业领域通常需要各自的专用大模型来服务,原因如下:

领域特定知识:不同领域拥有各自特定的知识和术语,需要针对该领域进行训练的大模型才能更好地理解和处理相关文本。比如:在医学领域,需要训练具有医学知识的大模型,以更准确地理解和生成医学文本。

语言风格和惯用语:各个领域通常有自己独特的语言风格和惯用语,这些特点对于模型的训练和生成都很重要。专门针对某个领域进行训练的大模型可以更好地掌握该领域的语言特点,生成更符合该领域要求的文本。

领域需求的差异:不同领域对于文本处理的需求也有所差异。比如:金融领域可能更关注数字和统计

数据的处理,而法律领域可能更关注法律条款和案例的解析。因此,为了更好地满足不同领域的需求,需要专门针对各个领域进行训练的大模型。

数据稀缺性:某些领域的数据可能相对较少,无法充分训练通用的大模型。针对特定领域进行训练的大模型可以更好地利用该领域的数据,提高模型的性能和效果。

尽管需要各自的大模型来服务不同领域,但也可以共享一些通用的模型和技术。比如:通用的大模型可以用于处理通用的文本任务,而领域特定的模型可以在通用模型的基础上进行微调和定制,以适应特定领域的需求。这样可以在满足领域需求的同时,减少模型的重复训练和资源消耗。

25、解释一下“大模型”(Large Language Models, LLMs)的概念,并列举几个知名的大模型。

答案:大模型,特别是大型语言模型,指的是那些参数量达到数十亿乃至数千亿级别的深度学习模型,主要应用于自然语言处理领域。它们通过海量数据预训练获得丰富的语言表达能力,能够完成生成文本、问答、翻译等多种任务。知名的大型语言模型包括 OpenAI 的 GPT 系列(如 GPT-3)、Google的T5、BERT 系列,以及阿里云的通义千问等。

26、在训练大模型时,如何有效地管理内存?

答案:管理大模型训练时的内存通常涉及以下几个策略:使用梯度累积来减少每一步更新所需的内存;实施模型并行和数据并行策略,将模型或数据分割到多个设备上;采用混合精度训练,利用半精度浮点数减少内存占用;以及使用交换空间或外存来扩展内存容量。

27、如何评估大模型的泛化能力?

答案: 泛化能力可以通过保留一部分未参与训练的数据作为验证集或测试集来评估。常用的指标包括准确率、召回率、F1 分数等。此外,可以设计特定的任务或场景测试,如领域迁移测试,考察模型在未见过的数据或新情境下的表现。

28、解释一下“Prompt Engineering”在大模型中的作用。

答案:Prompt Engineering 是指精心设计输入提示,引导大模型产生期望输出的过程。通过构造合适的提示,可以激发模型的潜力,让其执行特定任务,比如生成特定风格的文本、解决数学问题等,而无需额外的微调。好的 Prompt Engineering 能够显著提高模型的实用性和表现力。

29、大模型在处理多语言任务时面临哪些挑战?

答案:多语言任务面临的挑战包括语言差异性(如语法结构、表达习惯)、数据不平衡(某些语言数据较少)、跨语言噪声(翻译不准确或文化差异)、以及模型偏向(可能偏向于训练数据中占主导地位的语言)。解决这些挑战通常需要多语言预训练、特定的去偏技术以及跨语言数据增强。

30、解释“嵌入(Embedding)”在大模型中的作用。

答案:嵌入是将高维稀疏的输入(如词、句子或实体)转换为低维稠密向量的过程,这些向量能捕捉输入的语义信息。在大模型中,嵌入层是模型的第一层,它将每个输入词汇映射到一个向量空间,使得模型能够理解和处理语言的语义关系,这对于后续的计算和预测至关重要。

31、如何处理大模型中的“过热”(Hugging Face 术语)现象?

答案:“过热”通常指的是模型在生成文本时,生成的内容偏离了预期或变得不连贯。处理过热的一种方法是使用温度参数(Temperature)控制生成的随机性,降低温度可以使得生成更加保守和连贯。另外,可以采用 top-k 或 top-p 采样策略限制候选词汇的选择范围,以及设定生成的最大长度和强制关键词等策略。

32、解释“微调(Fine-tuning)”和“适应性微调(Adaptive Fine-tuning)”,并说明两者区别。

答案:微调是将预训练好的大模型在特定任务的有标签数据集上进行额外训练,以适应特定任务需求的过程。而适应性微调是一种更为精细的微调策略,它可能仅针对模型的一部分(如最后一层或几层)、少量参数或特定模块进行调整,旨在保持模型的泛化能力的同时,快速适应新任务,减少过拟合风险和计算成本。

33、在大模型开发中,如何处理数据隐私和安全问题?

答案:处理数据隐私和安全问题的方法包括:使用去标识化技术去除敏感个人信息;实施差分隐私来添加随机噪声保护数据;利用联邦学习技术在不集中数据的情况下进行模型训练;以及采用加密计算技术保护数据传输和处理过程的安全。

34、问题:如何在大模型中实现持续学习(Continuous Learning)?

答案:实现持续学习的关键在于设计模型架构和训练策略,使模型能够在不断遇到新数据时,既保留已学到的知识又学习新技能。这可以通过增量学习(逐步添加新数据而不覆盖旧数据的训练)、经验回放(存储旧数据并定期重训)、或使用可生长网络结构(如添加新层或节点)等方式来实现。同时,正则化技术和遗忘机制也可以帮助减轻灾难性遗忘问题。

35、LangChain Agent 是如何工作和使用?

LangChain Agent 是 LangChain 框架中的一个组件,用于创建和管理对话代理。

最新发布的首个稳定版本 v0.1.0 支持了 LangGraph 组件库,把 Agent 创建为图的组件库,提供创建更加定制化的循环行为。

代理是根据当前对话状态确定下一步操作的组件。LangChain 提供了多种创建代理的方法,包括OpenAI Function Calling、Plan-and-execute Agent、Baby AGI 和 Auto GPT 等。这些方法提供了不同级别的自定义和功能,用于构建代理。

代理可以使用工具包执行特定的任务或操作。工具包是代理使用的一组工具,用于执行特定的功能,如语言处理、数据操作和外部 API 集成。工具可以是自定义构建的,也可以是预定义的,涵盖了广泛的功能。

通过结合代理和工具包,开发人员可以创建强大的对话代理,能够理解用户输入,生成适当的回复,并根据给定的上下文执行各种任务。

AI大模型从0到精通全套学习大礼包

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

只要你是真心想学AI大模型,我这份资料就可以无偿共享给你学习。大模型行业确实也需要更多的有志之士加入进来,我也真心希望帮助大家学好这门技术,如果日后有什么学习上的问题,欢迎找我交流,有技术上面的问题,我是很愿意去帮助大家的!

如果你也想通过学大模型技术去帮助就业和转行,可以扫描下方链接👇👇
大模型重磅福利:入门进阶全套104G学习资源包免费分享!

01.从入门到精通的全套视频教程

包含提示词工程、RAG、Agent等技术点

02.AI大模型学习路线图(还有视频解说)

全过程AI大模型学习路线


03.学习电子书籍和技术文档

市面上的大模型书籍确实太多了,这些是我精选出来的


04.大模型面试题目详解

05.这些资料真的有用吗?

这份资料由我和鲁为民博士共同整理,鲁为民博士先后获得了北京清华大学学士和美国加州理工学院博士学位,在包括IEEE Transactions等学术期刊和诸多国际会议上发表了超过50篇学术论文、取得了多项美国和中国发明专利,同时还斩获了吴文俊人工智能科学技术奖。目前我正在和鲁博士共同进行人工智能的研究。

所有的视频由智泊AI老师录制,且资料与智泊AI共享,相互补充。这份学习大礼包应该算是现在最全面的大模型学习资料了。

资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


智泊AI始终秉持着“让每个人平等享受到优质教育资源”的育人理念‌,通过动态追踪大模型开发、数据标注伦理等前沿技术趋势‌,构建起"前沿课程+智能实训+精准就业"的高效培养体系。

课堂上不光教理论,还带着学员做了十多个真实项目。学员要亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!


如果说你是以下人群中的其中一类,都可以来智泊AI学习人工智能,找到高薪工作,一次小小的“投资”换来的是终身受益!

应届毕业生‌:无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌:非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能 ‌突破瓶颈:传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1215385.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

智能避障扫地机器人

目录 智能避障扫地机器人的工作原理主流避障技术分类典型产品性能参数选购注意事项维护保养要点 源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! 智能避障扫地机器人的工作原理 智能避障扫地机器人通过多传感器融合技术实现环境感知与…

智能声光感应窗帘系统设计

目录智能声光感应窗帘系统概述核心功能模块技术实现要点应用场景与优势扩展功能源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!智能声光感应窗帘系统概述 智能声光感应窗帘系统结合声音识别与光照传感器技术,通过自动化控制…

智能家居环境监测与自动调控系统设计

目录智能家居环境监测与自动调控系统概述核心功能模块技术实现方案应用场景与优势挑战与解决方案源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!智能家居环境监测与自动调控系统概述 智能家居环境监测与自动调控系统通过传感器网络实时…

智能环境测试仪设计

目录智能环境测试仪的设计要点关键技术实现应用场景示例源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!智能环境测试仪的设计要点 硬件设计 采用高精度传感器模块(如温湿度传感器、PM2.5传感器、CO₂传感器等)&…

智能环境监测系统设计

目录 智能环境监测系统概述核心组成部分关键技术应用场景示例代码示例(数据上传)扩展功能 源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式! 智能环境监测系统概述 智能环境监测系统是一种基于物联网(…

智能货车集装箱系统

目录智能货车集装箱系统的核心功能系统的主要技术组成数据分析与优化应用安全监控与风险预警行业应用价值体现源码文档获取/同行可拿货,招校园代理 :文章底部获取博主联系方式!智能货车集装箱系统的核心功能 智能货车集装箱系统通过物联网、大数据和人工…

深入解析:AI重塑就业格局:机遇、挑战与政策应对

深入解析:AI重塑就业格局:机遇、挑战与政策应对pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas",…

timefd

timefd 到底是什么你可以把 timefd 理解成 “把定时器变成文件描述符(fd)的工具” —— Linux 系统把定时器功能包装成了一个和 “文件、网络套接字” 一样的 fd,你可以像操作文件一样操作定时器。为什么要用它?新手可能用过 alar…

《穷查理宝典查理芒格的智慧箴言录》-20万字 最完整版

自用备份,有人要也可以自取 链接:https://pan.quark.cn/s/55e9e8be82c0

贾子普世智慧公理(Kucius Axioms of Universal Wisdom)的深度研究与系统论述

智能扩张的伦理边界:贾子普世智慧公理及其对AI与文明的裁决摘要: 贾子普世智慧公理是一个旨在界定智慧本质、为技术进步划定伦理边界的文明级规范体系。它提出“思想主权、普世中道、本源探究、悟空跃迁”四大核心公理,强调智慧是品格与价值的…

Linux写sh开机启动脚本-bash报错的两种克服方法

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

基于Spring Boot的长春美食推荐管理系统的设计与实现(源码+论文+部署+安装)

感兴趣的可以先收藏起来,还有在毕设选题,项目以及论文编写等相关问题都可以给我留言咨询,我会一一回复,希望可以帮到大家。一、程序背景在信息技术飞速发展与人们对美食体验需求升级的双重驱动下,长春作为美食文化底蕴…

本章节我们将讨论如何在 React 中使用表单DFS。

React 表单与事件本章节我们将讨论如何在 React 中使用表单。HTML 表单元素与 React 中的其他 DOM 元素有所不同,因为表单元素生来就保留一些内部状态。在 HTML 当中&#xff0c;像 <input>, <textarea>, 和 <select> 这类表单元素会维持自身状态&#xff0c…

看一遍就懂-大模型架构及encoder-decoder详细训练和推理计算过程

看一遍就懂-大模型架构及encoder-decoder详细训练和推理计算过程看一遍就懂-大模型架构及encoder-decoder详细训练和推理计算过程一、特殊Token的意思 不同模型架构的特殊token体系 BERT(Encoder-only,用于理解任务)…

完整教程:Android内核进阶之获取DMA地址snd_pcm_sgbuf_get_addr:用法实例(九十一)

完整教程:Android内核进阶之获取DMA地址snd_pcm_sgbuf_get_addr:用法实例(九十一)2026-01-25 18:21 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; ove…

CAD二次开发中关于非模态对话框的使用

1.添加 Dialog 资源&#xff08;普通 DLL 中创建对话框&#xff0c;可视化操作&#xff09; 普通 DLL 项目添加 Dialog 资源和 BRX 模板项目操作一致&#xff0c;全程可视化&#xff0c;无需手动写复杂脚本&#xff1a; 1.1 添加资源脚本文件&#xff08;.rc&#xff09; 右…

机器学习——线性回归、代价(损失)函数、L1L2正则化、梯度下降算法、正态分布和标准正态分布

一、线性回归与损失函数 举个例子&#xff08;图片来自于b站耿直哥丶&#xff09;&#xff1a; 比如父亲和儿子的身高存在某种关系&#xff0c;这些父亲和儿子身高的数据&#xff0c;画在二维坐标系上就是一堆点&#xff0c;那么我们可不可以从这堆数据中找到一个准确的数学模…

微积分:世界是用“微分”写成的,我们是用“积分”读懂的

——试着不用符号理解微积分 &#x1f343; 01. 世界是连续变化的 温度不是“突然 5℃”&#xff0c;而是慢慢升的 汽车不是“瞬间到 60 km/h”&#xff0c;而是一点点加速 树不是“咻”一下长高&#xff0c;而是毫米级地生长 河水不是“啪”地冲过去&#xff0c;而是持续…