LLM学习记录DAY2

news/2025/10/16 10:36:37/文章来源:https://www.cnblogs.com/szhAC/p/19144984

📘今日学习总结

一、博客美化

  • 通过系统学习与实践,我对博客园平台的美化工作进行了全面的探索与实施。
  • 本次学习的核心目标在于提升博客的视觉美感、增强用户体验以及融入个性化元素。

1.1整体视觉与布局的现代化改造

  • 本次美化的基础是对博客整体框架进行了修改。
  1. 主题切换: 采用了备受推崇的 “SimpleMemory” 主题作为基底。
  2. 布局优化: 通过定制CSS代码,实现了:
    • 内容区拓宽: 使文章显示区域更宽,减少了阅读时的局促感,提升了阅读效率。
    • 结构清晰化: 对页头、导航栏、侧边栏和页脚进行了重新排版与设计,使博客结构层次分明,逻辑清晰。

1.2个性化功能元素的成功引入

在优化视觉的基础上,我重点引入了一系列互动性与个性化功能,让博客更加nice。

  1. 动态页脚: 在博客底部成功添加了网站运行时间统计。这个动态更新的元素不仅是一个有趣的小功能,更象征着博客与访客之间一段持续的陪伴,赋予了博客一丝“生命感”。
  2. 互动看板娘: 成功在页面一角部署了Live2D看板娘。她能够跟随鼠标移动、显示欢迎语并提供简单的互动。这个元素的加入极大地增强了博客的亲和力与趣味性,有效拉近了与访客的距离。
  3. 样式深度定制:
    • 色彩体系: 修改了默认的链接色、背景色等,建立了属于自己的博客色彩标识,避免了千篇一律。
    • 代码高亮: 为博客中的代码块更换了美观清晰的语法高亮主题,使其阅读体验堪比专业编辑器,对技术类博客的内容呈现至关重要。

二、Transformer 模型核心机制

  • Transformer 模型由编码器-解码器结构组成,完全基于注意力机制,摒弃了传统的 CNN 和 RNN。
    image-20251016015106314

  • 其核心机制包括:

2.1注意力机制

  • 通过 Query、Key、Value 矩阵计算相似度,实现加权求和。

  • 公式为:$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{D}}\right)V$$

  • 使用点积注意力是因为其计算效率高,优于加法注意力。

2.2多头注意力

  • 将注意力拆分为多个“头”,每个头关注不同语义空间,最后合并结果。
  • 类似 CNN 中使用多个卷积核,增强模型表达能力。

2.3位置编码

  • Transformer 本身不具备序列顺序感知能力,需引入位置编码。
  • 常用正弦-余弦函数编码,也有可学习或 RoPE、ALiBi 等变体。

4. 前馈网络与残差连接

  • 前馈网络通常为两层线性变换加激活函数(如 ReLU、GELU、SwiGLU)。
  • 残差连接与层归一化提升训练稳定性。

三、大语言模型的关键配置

构建大模型时需考虑以下配置:

3.1归一化方法

![image-20251016093919467]

2. 激活函数

image-20251016094024787

3. 位置编码方式

  • 绝对位置编码:如原始 Transformer 的 sin/cos 编码。
  • 相对位置编码:如 RoPE、ALiBi,能更好地处理长序列和外推任务。

4. 注意力机制优化

  • MQAGQA:减少 KV 缓存,提升推理速度。
  • MLA:DeepSeek-V2 提出,进一步压缩 KV Cache,降低显存。
    ![[image-20251016094411201.png]]

5. 混合专家架构

  • 使用多个专家网络,每个词元仅激活部分专家,实现参数扩展而不显著增加计算成本。

四、长上下文模型与扩展方法

为处理长文本(如 128K、200K 甚至 2M 上下文),模型需进行扩展和优化:

4.1长度外推方法

  • ALiBi:通过线性偏置惩罚远距离词元,增强外推能力。
  • RoPE 扩展
    • 位置插值:缩放位置索引。
    • NTK-RoPE:动态调整旋转基,无需训练即可扩展上下文。
    • 旋转基截断:控制旋转角度分布,防止超出训练范围。

4.2受限注意力机制

  • 并行上下文窗口:分段编码,但顺序关系建模弱。
  • Λ型上下文窗口:仅关注开头和邻近词元,如 StreamingLLM。
  • 词元选择:基于相似度检索远距离词元,如 Focused Transformer。

4.3长文本数据训练

  • 使用少量长文本数据继续预训练,可有效扩展上下文窗口。
  • 数据需多样化、连贯,并进行聚合与上采样。

五、新型模型架构探索

为克服 Transformer 在长序列上的计算瓶颈,出现了一系列新型架构:

5.1状态空间模型

  • Mamba:引入输入依赖的选择机制,实现线性复杂度。
  • RWKV:结合 RNN 与 Transformer 优点,支持并行训练与高效推理。
  • RetNet:使用多尺度保留机制,支持递归、并行和分块计算。
  • Hyena:使用长卷积与门控机制,替代注意力层。

5.2模型对比

  • SSM 类模型在长序列上具有更好的计算效率,但在表达能力上仍需优化。
  • 多数新型模型仍在发展中,尚未完全取代 Transformer。

📘今日学习总结

一、博客美化

  • 通过系统学习与实践,我对博客园平台的美化工作进行了全面的探索与实施。
  • 本次学习的核心目标在于提升博客的视觉美感、增强用户体验以及融入个性化元素。

1.1整体视觉与布局的现代化改造

  • 本次美化的基础是对博客整体框架进行了修改。
  1. 主题切换: 采用了备受推崇的 “SimpleMemory” 主题作为基底。
  2. 布局优化: 通过定制CSS代码,实现了:
    • 内容区拓宽: 使文章显示区域更宽,减少了阅读时的局促感,提升了阅读效率。
    • 结构清晰化: 对页头、导航栏、侧边栏和页脚进行了重新排版与设计,使博客结构层次分明,逻辑清晰。

1.2个性化功能元素的成功引入

在优化视觉的基础上,我重点引入了一系列互动性与个性化功能,让博客更加nice。

  1. 动态页脚: 在博客底部成功添加了网站运行时间统计。这个动态更新的元素不仅是一个有趣的小功能,更象征着博客与访客之间一段持续的陪伴,赋予了博客一丝“生命感”。
  2. 互动看板娘: 成功在页面一角部署了Live2D看板娘。她能够跟随鼠标移动、显示欢迎语并提供简单的互动。这个元素的加入极大地增强了博客的亲和力与趣味性,有效拉近了与访客的距离。
  3. 样式深度定制:
    • 色彩体系: 修改了默认的链接色、背景色等,建立了属于自己的博客色彩标识,避免了千篇一律。
    • 代码高亮: 为博客中的代码块更换了美观清晰的语法高亮主题,使其阅读体验堪比专业编辑器,对技术类博客的内容呈现至关重要。

二、Transformer 模型核心机制

  • Transformer 模型由编码器-解码器结构组成,完全基于注意力机制,摒弃了传统的 CNN 和 RNN。
    image-20251016094411201

其核心机制包括:

2.1注意力机制

  • 通过 Query、Key、Value 矩阵计算相似度,实现加权求和。

  • 公式为:$$\text{Attention}(Q, K, V) = \text{softmax}\left(\frac{QK^T}{\sqrt{D}}\right)V$$

  • 使用点积注意力是因为其计算效率高,优于加法注意力。

2.2多头注意力

  • 将注意力拆分为多个“头”,每个头关注不同语义空间,最后合并结果。
  • 类似 CNN 中使用多个卷积核,增强模型表达能力。

2.3位置编码

  • Transformer 本身不具备序列顺序感知能力,需引入位置编码。
  • 常用正弦-余弦函数编码,也有可学习或 RoPE、ALiBi 等变体。

4. 前馈网络与残差连接

  • 前馈网络通常为两层线性变换加激活函数(如 ReLU、GELU、SwiGLU)。
  • 残差连接与层归一化提升训练稳定性。

三、大语言模型的关键配置

构建大模型时需考虑以下配置:

3.1归一化方法

![[image-20251016093919467.png]]

2. 激活函数

![[image-20251016094024787.png]]

3. 位置编码方式

  • 绝对位置编码:如原始 Transformer 的 sin/cos 编码。
  • 相对位置编码:如 RoPE、ALiBi,能更好地处理长序列和外推任务。

4. 注意力机制优化

  • MQAGQA:减少 KV 缓存,提升推理速度。
  • MLA:DeepSeek-V2 提出,进一步压缩 KV Cache,降低显存。
    ![[image-20251016094411201.png]]

5. 混合专家架构

  • 使用多个专家网络,每个词元仅激活部分专家,实现参数扩展而不显著增加计算成本。

四、长上下文模型与扩展方法

为处理长文本(如 128K、200K 甚至 2M 上下文),模型需进行扩展和优化:

4.1长度外推方法

  • ALiBi:通过线性偏置惩罚远距离词元,增强外推能力。
  • RoPE 扩展
    • 位置插值:缩放位置索引。
    • NTK-RoPE:动态调整旋转基,无需训练即可扩展上下文。
    • 旋转基截断:控制旋转角度分布,防止超出训练范围。

4.2受限注意力机制

  • 并行上下文窗口:分段编码,但顺序关系建模弱。
  • Λ型上下文窗口:仅关注开头和邻近词元,如 StreamingLLM。
  • 词元选择:基于相似度检索远距离词元,如 Focused Transformer。

4.3长文本数据训练

  • 使用少量长文本数据继续预训练,可有效扩展上下文窗口。
  • 数据需多样化、连贯,并进行聚合与上采样。

五、新型模型架构探索

为克服 Transformer 在长序列上的计算瓶颈,出现了一系列新型架构:

5.1状态空间模型

  • Mamba:引入输入依赖的选择机制,实现线性复杂度。
  • RWKV:结合 RNN 与 Transformer 优点,支持并行训练与高效推理。
  • RetNet:使用多尺度保留机制,支持递归、并行和分块计算。
  • Hyena:使用长卷积与门控机制,替代注意力层。

5.2模型对比

  • SSM 类模型在长序列上具有更好的计算效率,但在表达能力上仍需优化。
  • 多数新型模型仍在发展中,尚未完全取代 Transformer。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/938075.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

DevExpress WinForms中文教程:Data Grid - 数据排序基础知识

DevExpress WinForms中文教程:Data Grid - 数据排序基础知识DevExpress WinForms拥有180+组件和UI库,能为Windows Forms平台创建具有影响力的业务解决方案。DevExpress WinForms能完美构建流畅、美观且易于使用的应用…

【随手记录】minio最新社区版控制台没有管理权限

拉取最新的minio镜像,发现左侧没有管理员权限管控相关内容,只有创建桶相关的核心功能:查了下:MinIO 社区版在 2025-05-24T17-08-30Z(即 RELEASE.2025-05-24T17-08-30Z)版本及之后,移除了 Web 控制台的大部分管理…

python循环遍历文件夹名称和txt文件名称

python循环遍历文件夹名称和txt文件名称python循环遍历文件夹名称和txt文件名称 需求背景: 遍历之前的工作目录下的需求.txt文件,搜集需求列表,通过python脚本来遍历文件名,然后复制到excel表格中去重归类。import…

电力系统短期负荷预测

1. 数据准备和预处理 classdef LoadDataPreprocessorpropertiesraw_dataprocessed_datafeature_namestemporal_featuresweather_featureshistorical_featuresendmethodsfunction obj = LoadDataPreprocessor(data_file…

vscode python format

下载插件 Black Formatter 配置 .vscode/settings.json{ "python-envs.defaultEnvManager": "ms-python.python:conda", "python-envs.defaultPackageManager": "ms-python.pyth…

2025年最值得收藏的15+个图标库推荐

2025年最值得收藏的15+个图标库推荐Posted on 2025-10-16 10:22 lzhdim 阅读(0) 评论(0) 收藏 举报这几年写代码下来,我深深体会到:一个好的图标库对项目的影响有多大。图标不仅能提升用户体验,还能省去大量说…

2025 年浇注料生产厂家最新推荐榜单:聚焦实力企业,助力石化冶金新能源等行业精准选择优质供应商轻质/氧化铝空心球/耐火纤维浇注料厂家推荐

在当前工业生产中,浇注料作为热工窑炉的核心配套材料,其品质直接关系到窑炉运行效率、使用寿命及生产安全,对石化、冶金、陶瓷、新能源等关键行业的稳定发展至关重要。然而,当下浇注料市场厂家数量繁杂,不同厂家在…

阿里云安全防护利器ESA

网站裸奔非常危险,时不时就会受到攻击,最近发现阿里云边缘安全加速ESA包含基础防御功能,可以防刷防攻击,算是加了多一层保护。 而且发现最近搞活动,可以不限次数领取基础版代金券,免费领取链接: http://s.tb.cn…

2025 年国内控制柜生产厂家最新推荐排行榜:聚焦换热机组与污水处理等领域品牌实力测评污水处理PLC/变频供水/反冲洗/压差过滤器控制柜厂家推荐

在工业自动化进程加速推进的当下,控制柜作为设备运行的核心控制中枢,广泛应用于换热机组、污水处理、变频供水等多个关键领域,其品质与服务直接关系到企业生产效率与安全运营。当前市场上控制柜厂家数量繁杂,部分品…

谷歌推出全新语音搜索技术 S2R:跳过语音转文字,直接理解语音意图;代体 AI 推出端侧语音输入法丨日报

开发者朋友们大家好:这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的技术」、「有亮点的产品」、「有思考的文章」、「有态…

/emps?ids=1,2,3 类型参数如何获取?

用@RequestParam List<Integer> ids直接获取即可 如:public Result delete(@RequestParam List<Integer> ids){..........} 相应的XML文件也有所不同,如下<!--批量删除员工基本信息 (1,2,3)--><…

【VPX315】基于 3U VPX 总线架构的 JFMQL100TAI + FT-M6678 智能信号处理平台

​ 产品概述 VPX315 是一款基于 3U VPX 总线架构的 JFMQL100TAI + FT-M6678 DSP 的高性能智能信号处理平台,板载 1 片国防科大银河 飞腾 FT-M6678 多核浮点运算 DSP,可以实现各种实时性要求较高的 信号处理算法,板…

2025年代码托管平台深度评测:本土化与全球化之争

2025年代码托管平台深度评测:本土化与全球化之争 在数字化转型加速的2025年,代码托管平台已成为企业研发效能的核心基础设施。随着国内开发者生态的成熟和合规要求的提升,平台选择标准正从单一功能完备性向访问体验…

访问控制列表 ACL

访问控制列表 ACL 0x0 定义用于数据流的匹配和筛选ACL 不对数据包本身做任何操作手动网络层隔离技术0x1 常见功能访问控制:ACL + Packet-filter路由控制:ACL + Route-policy流量控制:ACL + QoS0x2 ACL 分类 基本 AC…

数据跨境传输:挑战、需求与管控实践

数据跨境传输是企业参与全球竞争的关键,但法律差异、技术瓶颈及安全风险等问题日益凸显。当前,企业需同时应对多国数据保护法规,例如欧盟GDPR与我国《数据安全法》对数据出境的审查要求截然不同。技术层面,跨国网络…

2025 年深圳心理咨询机构最新推荐排行榜:覆盖青少年、婚姻情感等领域,精选优质品牌供参考深圳催眠/深圳沙盘游戏/深圳孩子厌学心理咨询机构推荐

当前深圳作为人口密集、竞争激烈的一线城市,民众在青少年心理疏导、婚姻情感调解、儿童行为干预等方面的心理咨询需求持续攀升。但行业内机构资质良莠不齐,部分机构缺乏专业诊疗体系,咨询师能力差异显著,且行业信息…

手把手教你在 Docker 中部署 Home Assistant

本文详细介绍在Docker中部署Home Assistant的全流程,含从轩辕镜像查看详情、多种方式拉取镜像,提供快速部署、持久化挂载(推荐)、docker-compose部署三种方案,还包含结果验证方法与常见问题解决办法。🧰 准备工…