LLM大模型多模态面试题(二)

1. 介绍transformer算法

Transformer本身是一个典型的encoder-decoder模型,Encoder端和Decoder端均有6个Block,Encoder端的Block包括两个模块,多头self-attention模块以及一个前馈神经网络模块;Decoder端的Block包括三个模块,多头self-attention模块,多头Encoder-Decoder attention交互模块,以及一个前馈神经网络模块;需要注意:Encoder端和Decoder端中的每个模块都有残差层和Layer Normalization层。

2. 在大型语言模型 (llms) 中减少幻觉的策略有哪些?

  • DoLa:通过对比层解码提高大型语言模型的真实性:大型预训练 LLM 中的简单解码策略可减少幻觉;
  • 在高质量数据上微调模型——在高质量数据上微调小型法学硕士模型已显示出有希望的结果,并有助于减少幻觉;
  • 上下文学习:使用上下文学习为模型提供更好的上下文;
  • 限制:将输出限制为受限列表,而不是自由浮动文本;

LLMS

3. 你能否概括介绍一下 ChatGPT 的训练过程?

  • 𝗣𝗿𝗲-𝘁𝗿𝗮𝗶𝗻𝗶𝗻𝗴:预训练,大型语言模型在来自互联网的广泛数据集上进行训练,其中 Transformer 架构是自然语言处理的最佳选择,这里的主要目标是使模型能够预测给定文本序列中的下一个单词。此阶段使模型具备理解语言模式的能力,但尚未具备理解指令或问题的能力。

  • 监督微调或者指令微调。模型将用户消息作为输入,模型通过最小化其预测与提供的响应之间的差异来学习生成响应,此阶段标志着模型从仅仅理解语言模式到理解并响应指令的转变。

  • 采用人类反馈强化学习 (RHFL) 作为后续微调步骤。

4. 在大型语言模型 (llms) 上下文中的标记是什么?

将输入文本分解为多个片段,每一部分大约是一个单词大小的序列,我们称之为子词标记,该过程称为标记化。标记可以是单词或只是字符块。

5. 大模型微调的LORA原理及Lora怎么训练?

大模型实战:使用 LoRA(低阶适应)微调 LLM

6. lora的矩阵怎么初始化?为什么要初始化为全0?

大模型实战:使用 LoRA(低阶适应)微调 LLM

7. Stable Diffusion里是如何用文本来控制生成的?

Stable Diffusion是一种潜在扩散模型,主要通过自动编码器(VAE),U-Net以及文本编码器三个核心组件完成用文本来控制生成的图像。Unet的Attention模块Latent Feature和Context Embedding作为输入,将两者进行Cross Attenetion操作,将图像信息和文本信息进行了融合,整体上是一个经典的Transformer流程。

8. Stable Diffusion相比Diffusion主要解决的问题是什么?

Diffusion的缺点是在反向扩散过程中需要把完整尺寸的图片输入到U-Net,这使得当图片尺寸以及time step t足够大时,Diffusion会非常的慢。

9. Diffusion每一轮训练样本选择一个随机时间步长?

训练过程包含:每一个训练样本选择一个随机时间步长,将time step 对应的高斯噪声应用到图片中,将time step转化为对应embedding;

模型在训练过程中 loss 会逐渐降低,越到后面 loss 的变化幅度越小。如果时间步长是递增的,那么必然会使得模型过多的关注较早的时间步长(因为早期 loss 大),而忽略了较晚的时间步长信息。

10. 领域数据训练后,通用能力往往会有所下降,如何缓解模型遗忘通用能力?

为了解决这个问题通常在领域训练的过程中加入通用数据集。那么这个比例多少比较合适呢?目前还没有一个准确的答案。主要与领域数据量有关系,当数据量没有那么多时,一般领域数据与通用数据的比例在1:5到1:10之间是比较合适的。

11. 在大型语言模型 (llms)中数据模态的对齐如何处理?

  • Qformer
    在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/838796.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

uniapp 实现下拉刷新 下滑更新

效果图 在app或者小程序中向下滑动 会出现刷新数据 ,而上拉到底 需要更新数据 功能实现 主要俩种方式 依赖生命周期 在page.json中开启 page.json "style" : {"navigationBarTitleText" : "小小练习","backgroundTextStyle": &qu…

狙击策略专用术语以及含义,WeTrade3秒讲解

想必各位交易高手对狙击策略不会陌生吧!但你想必不知道狙击策略的开发者为了推广狙击策略,在狙击策略基础的经典技术分析理论引入了自己的术语。今天WeTrade众汇和各位投资者继续了解狙击策略专用术语以及含义。 一.BL 银行级别(BL)是前一日线收盘的级别。时间是格…

微信小程序开发中怎么配置SSL证书?

在微信小程序开发中,配置SSL证书主要用于实现HTTPS请求,以保证数据传输的安全性。以下是配置SSL证书的基本步骤: 一、获取SSL证书 首先,你需要获取一个有效的SSL证书。SSL证书可以被广泛信任的证书颁发机构申请,如Jo…

rocketmq的顺序消息开发注意事项

1. 参考消息重试,要对 MaxReconsumeTimes进行设置。之前就是因为没有进行设置,导致了队头阻塞问题。 rokcetmq和kafka一样,当顺序消息写入的多个队列中后,如果是顺序消息,当前的队列的队头一直消费失败的时候&#x…

JVM运行时内存:本地方法接口与本地方法栈

文章目录 1. 什么是本地方法?2. 为什么要使用Native Method?3. 本地方法现状 运行时内存整体结构如下图所示: 1. 什么是本地方法? 简单地讲,一个Native Method就是一个Java调用非 Java 代码的接口。一个Native Method是这样一个 …

【Linux】linux | 配置系统日志 | 安全日志 | 操作日志 | 登录日志

一、诉求 1、linux服务器开启日志功能,并记录10个月的登录 二、操作 1、进入目录 cd /etc 2、编辑配置 vi logrotate.conf 3、复制配置 /var/log/wtmp {monthlycreate 0664 root utmpminsize 1Mrotate 10 }/var/log/btmp {missingokmonthlycreate 0600 root …

vue2人力资源项目9权限管理

页面搭建 <template><div class"container"><div class"app-container"><el-button size"mini" type"primary">添加权限</el-button><el-table-column label"名称" /><el-table-co…

Spring Boot代码案例(计算器、登录、留言板)

文章目录 一、计算器二、登录2.1 判断账号密码是否正确2.2 根据不同的用户作出不同反应 三、留言板3.1 提交数据3.2 展示所有数据 四、Lombok 工具包4.1 场景介绍4.2 如何使用 五、Edit Starters插件六、项目如何Debug七、项目命名规范 一、计算器 导入前端文件后端代码&#…

AI Agent是什么?未来如何发展

AI Agnt是什么 AI代理&#xff08;AI Agent&#xff09;是指一种利用人工智能技术来执行特定任务或解决特定问题的自主软件程序。这些代理通过学习和模拟人类行为或特定领域的知识&#xff0c;能够在无需人为干预的情况下完成复杂的任务。AI代理广泛应用于多个领域&#xff0c…

SSM【Spring SpringMVC Mybatis】—— SpringMVC

目录 1、初识SpringMVC 1.1 SpringMVC概述 1.2 SpringMVC处理请求原理简图 2、SpringMVC搭建框架 2.1 搭建SpringMVC框架 3、RequestMapping详解 3.1 RequestMapping注解位置 3.2 RequestMapping注解属性 3.3 RequestMapping支持Ant 风格的路径&#xff08;了解&#…

【Linux玩物志】Linux环境开发基本工具使用(1)——vim

W...Y的主页 &#x1f60a; 代码仓库分享&#x1f495; Linux开发工具 首先我们要知道vim是什么&#xff1f; vi&#xff08;Visual Editor&#xff09;是由美国程序员比尔乌尔曼&#xff08;Bill Joy&#xff09;于1976年开发的&#xff0c;最初是为了在Unix系统上进行文本编…

技术前沿 |【大模型LLaMA:技术原理、优势特点及应用前景探讨】

大模型LLaMA&#xff1a;技术原理、优势特点及应用前景探讨 一、引言二、大模型LLaMA的基本介绍三、大模型LLaMA的优势特点五、结论与展望 一、引言 随着人工智能技术的飞速发展&#xff0c;大模型已成为推动这一领域进步的重要力量。近年来&#xff0c;大模型LLaMA以其卓越的…

我和jetson-Nano的故事(11)——在ros中编译usb_cam

在jetson nano中编译旧版本的usb_cam 1. 问题背景1.1 jetson nano的软件环境版本 2.问题现象3.问题原因及解决办法 1. 问题背景 最近给jetson nano重装了系统之后&#xff0c;在编译今年人工智能ROS小车比赛用的工程包的时候&#xff0c;遇到一个问题迟迟没有解决&#xff0c;…

惠海 H4112 同步整流30V降压芯片IC 24V转12V5V3.3V3.5A方案EN使能控制

惠海H4112同步整流30V降压芯片IC是一款DCDC电源管理芯片&#xff0c;它具备精确恒压和恒流的同步降压能力&#xff0c;适用于多种应用场景&#xff0c;如汽车充电器、照明灯、便携式设备供电电源和电池充电器等。 输出电压与电流调整&#xff1a; H4112支持输出电压在2.5V到2…

HNU-算法设计与分析-作业4

第四次作业【贪心算法】 文章目录 第四次作业【贪心算法】<1> 算法分析题4-1 会场安排问题<2> 算法实现题4-9 虚拟汽车加油问题<3> 算法实现题4-13 非单位时间任务安排问题<4> 算法实现题4-14 多元Huffman编码问题 <1> 算法分析题4-1 会场安排问…

牛客热题:合并二叉树

牛客热题&#xff1a;二叉树与双向链表> &#x1f4df;作者主页&#xff1a;慢热的陕西人 &#x1f334;专栏链接&#xff1a;力扣刷题日记 &#x1f4e3;欢迎各位大佬&#x1f44d;点赞&#x1f525;关注&#x1f693;收藏&#xff0c;&#x1f349;留言 文章目录 牛客热题…

最高18K/月!云计算、网络方向招人啦~

云计算工程师岗位职责&#xff1a; 1.计算机网络相关专业&#xff0c;云计算、虚拟化相关开局、维护为主&#xff1b; 2.主要负责H3C云产品项目交付&#xff0c;重大故障处理、包括虚拟化、私有云平台、分布式/集中式存储、云桌面等&#xff1b;任职要求&#xff1a; 1.精通云计…

java优先级队列

1. 优先级队列 1.1 概念 前面介绍过队列&#xff0c;队列是一种先进先出(FIFO)的数据结构&#xff0c;但有些情况下&#xff0c;操作的数据可能带有优先级&#xff0c;一般出队 列时&#xff0c;可能需要优先级高的元素先出队列&#xff0c;该中场景下&#xff0c;使用队列显然…

【代码随想录】面试常考题目类型之贪心1

前言 更详细的在大佬的代码随想录 (programmercarl.com) 本系列仅是简洁版笔记&#xff0c;为了之后方便观看 本质 局部最优推出全局最优 验证 验证可不可以用贪心算法最好用的策略就是举反例&#xff0c;想不到反例就试贪心 分发饼干 455. 分发饼干 - 力扣&#xff08;…

深入理解 House of Cat

Index 序言利用 FSOP 调用 House of Cat利用条件伪造IO流条件完整调用链分析 模板System (one_gadget) 模板ORW模板 Demo & Exp利用 __malloc_assert 调用 House of Cat例题&#xff1a;题目思路Exp 序言 原文章&#xff1a;深入理解 House of Cat 随着 GNU 持续不断的更…