面试-Decoder-Only生成模型

1 背景

Decoder-Only 模型(如 GPT 系列、Llama)的工作原理是“根据上下文预测下一个字” 。这种 “递归”的特性导致了必须将推理过程拆分为两个截然不同的阶段。

  • 输入:整个历史序列。

  • 输出:下一个 Token。

  • 循环:预测出的 Token 会被拼接到输入中,作为下一次计算的输入。

Q1 为什么会分为两个截然不同的阶段?
维度Prefill 阶段 (预填充)Decode 阶段 (解码)
任务目标处理用户输入的 Prompt(提示词)。逐个生成新的 Token。
计算特征并行计算。一次性把用户输入的 N 个词全部喂给模型。串行计算。一次只处理一个词,算完才能算下一个。
计算强度计算密集型 (Compute-bound)。矩阵维度大,GPU 算力被充分利用。访存密集型 (Memory-bound)。矩阵维度极小(向量),大部分时间花在从显存搬运权重上。
核心瓶颈GPU 的峰值算力(TFLOPS)。显存带宽 (Memory Bandwidth)。
关键指标TTFT(Time to First Token,首字延迟)。TPOT(Time Per Output Token,单字生成速度)。

看图 1 中 Iter 2 和 Iter 3 的虚线框,你会发现它们只处理新生成的词。为什么不需要重新计算之前的“I think this”?

  • 背景:在 Attention 计算中,每一个词都需要和之

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1215133.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【毕业设计】基于springboot的人脸识别员工考勤管理系统(源码+文档+远程调试,全bao定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

亲测好用!继续教育TOP8一键生成论文工具测评

亲测好用!继续教育TOP8一键生成论文工具测评 2026年继续教育论文工具测评:为何需要这份权威榜单? 在当前继续教育领域,论文写作已成为许多学员必须面对的挑战。无论是选题构思、文献检索,还是内容撰写与格式调整&#…

改变人生的方式

我们会列出很多新年计划,告诉自己今年要干什么,到达到设么目标,这没什么,有上进心的人都会这么做。但绝大多数人都会放弃——研究显示,失败率在 80%–90% 之间。原因并不是他们“不够努力”,而是&#xff1…

FastAPI系列(07):请求体数据

本系列汇总,请查看这里:https://www.cnblogs.com/uncleyong/p/19503695 官网 https://fastapi.tiangolo.com/tutorial/body/ 下面用到的是pydantic模块from pydantic import BaseModel, Field, field_validator 请求…

别只盯着那只“鹦鹉”了!Claude3.7与Sora2才是真正的生产力怪兽

在AI圈子里混久了 你会发现一个怪象 大家都只知道那个G开头的模型 其实在很多专业领域 真正的王者早就换人了 比如写代码和长文本分析 Claude系列才是永远的神 它的逻辑推理能力 简直像是一个严谨的大学教授 而不仅仅是一个会聊天的机器人 还有最近火出圈的Sora2 以…

2026链条直销厂家榜:获取优质厂家联系方式,链条/非标链条/不锈钢链条/工业链条,链条源头厂家推荐排行

在全球工业链加速重构的背景下,链条作为机械传动与输送的核心部件,其质量稳定性直接影响设备运行效率与寿命。据中国机械通用零部件工业协会数据显示,2024年我国链条市场规模突破320亿元,年复合增长率达6.8%,但行…

Agent Skill:新一代 AI 设计模式的原理、实践与 MCP 协同应用解析

目录 前言1. Agent Skill 的概念与发展背景1.1 什么是 Agent Skill1.2 Agent Skill 的产生背景 2. Agent Skill 的核心功能与价值2.1 教会模型“如何做”,而不仅是“做什么”2.2 按需加载与条件触发机制2.3 跨平台复用与开放标准 3. Agent Skill 的技术结构设计3.1 …

Git行尾符战争:如何彻底解决CRLF与LF的跨平台噩梦

目录 前言1 问题现象:那些令人困惑的Git警告1.1 典型的警告信息1.2 相关错误现象 2 问题本质:CRLF与LF的历史渊源2.1 技术背景解析2.2 Git的智能处理机制2.3 核心配置参数:core.autocrlf 3 根本原因:为什么会出现这个问题&#xf…

hot100 230.二叉搜索树中第K小的元素

思路:中序遍历。在二叉搜索树中,中序遍历的遍历顺序就是在从小到大遍历节点值,所以遍历到的第k个节点值就是答案。每次递归完左子树,在根节点的操作中,把k减少1,表示按照中序遍历的顺序访问到了一个节点。当…

hot100 199.二叉树的右视图

见代码随想录 199.二叉树的右视图

hot100 108.将有序数组转换为二叉搜索树

见代码随想录 108.将有序数组转换为二叉搜索树

hot100 98.验证二叉搜索树

见代码随想录 98.验证二叉搜索树

做久坐提醒+拉伸指导工具,设定工作时长,久坐超一小时自动提醒,推送三分钟简易拉伸动作(图文步骤),记录每日拉伸次数。

1. 实际应用场景描述 在现代办公环境中,许多白领、程序员、设计师等长时间坐在电脑前工作,容易导致: - 颈椎、腰椎问题 - 血液循环不畅 - 精神疲劳 虽然知道要活动,但往往忘记或拖延。 本工具适用于办公室、居家办公、学生自习等…

Java毕设项目:基于springboot的社区健康管理系统(源码+文档,讲解、调试运行,定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

Java计算机毕设之基于springboot的社区健康管理系统基于SpringBoot的社区医疗健康管理系统(完整前后端代码+说明文档+LW,调试定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

markdown博客发布多平台实战指南

markdown博客发布多平台实战指南 作为技术创作者,内容生产只完成了一半,高效的发布同样关键。下面这套基于 Markdown + 图床 + 多平台工具的工作流程,能让你的博客分发到公众号、csdn、掘金、博客园等平台, 一、发…

2025精选浙江干式打磨台靠谱厂家推荐,水帘除尘器/湿式打磨台/喷淋塔除尘器/活性炭吸附干式打磨台制造厂家怎么选择

随着制造业精细化发展和环保要求日益严格,干式打磨台作为打磨、抛光等工序中控制粉尘污染、保障职业健康的关键设备,其市场需求持续增长。浙江省作为我国重要的制造业和环保产业基地,涌现出一批在干式打磨台领域表现…

抖音直播卖货起号-汽水账号自然流提高了

抖音直播卖货起号-汽水账号自然流提高了目前这2天做一个新号 0粉丝 0关注的新号 店铺销量是个位数 基本也是0 目前直播开了2天 数据良好。自然流量在增加。 第一天 自然流量零星 第二天 随着时间的推移 自然流量明显…

【毕业设计】基于springboot的社区健康管理系统(源码+文档+远程调试,全bao定制等)

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

【课程设计/毕业设计】基于springboot的社区康养管理系统基于springboot的社区健康管理系统【附源码、数据库、万字文档】

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…