深度学习周报(9.15~9.21) - 实践

news/2025/9/26 21:00:39/文章来源:https://www.cnblogs.com/yxysuanfa/p/19114229

目录

摘要

Abstract

1 transformer入门

1.1 Encoder

1.2 Decoder

2 量子计算基本定义

2.1 量子态

2.2 量子演化

2.3 复合系统

3 总结


摘要

本周首先初步了解了transformer的部分背景与基础,主要包括Seq2Seq模型、编码器与解码器的结构,AT与NAT的区别等;其次学习了量子计算的根本定义,包括狄拉克符号及其运算、布洛赫球、常见的单量子比特门与复合系统等。

Abstract

This week, I first gained a preliminary understanding of some background and fundamentals of the Transformer, primarily including the Seq2Seq model, the structure of encoders and decoders, and the differences between AT and NAT. Secondly, I studied the basic definitions of quantum computing, including Dirac notation and its operations, the Bloch sphere, common single-qubit gates, and composite systems.

1 transformer入门

Transformer 是一种在深度学习领域,专门是自然语言处理(NLP)中具有革命性意义的神经网络架构。它由 Google 的研究人员在 2017 年的论文《Attention is All You Need》中首次提出,它本质上也是一种Seq2Seq模型。

Seq2Seq模型主要用于处理变长输入与输出的序列映射问题,可以让机器自己决定输出序列的长度,广泛应用于机器翻译、文本摘要、对话生成等。该模型由两个核心组件构成:编码器(Encoder)和解码器(Decoder)。编码器负责将输入序列(如一个句子)逐步编码为一个固定维度的上下文向量(context vector),该向量被视为整个输入序列的语义摘要。解码器则以该上下文向量为初始状态,自回归地生成目标序列,每一步的输出作为下一步的输入,直至生成结束符。

传统的、基于循环神经网络(RNN)或其变体实现的Seq2Seq模型有两个不足之处,一是编码器将整个序列压缩为单一向量,容易造成信息瓶颈;二是RNN的串行处理机制限制了训练效率,并难以捕捉长距离依赖关系。由此引入注意力机制和Transformer架构。

1.1 Encoder

Transformer的编码器包含多个相同的层,每层首先将输入的原始数据(离散的、符号化的单词或子词单元)转换为连续的、高维的数值向量,然后对其进行位置编码,让模型能学习到相对和绝对位置信息;其次,经过多头注意力机制;最后,经过前馈神经网络。另外,在每一层的输出处添加残差连接,并进行归一化处理。

1.2 Decoder

Transformer的解码器与编码器结构类似,不同之处在于一方面它第一次经过的多头注意力机制是不考虑后面输入的(Masked),另一方面,它在中间多加了一层注意力机制以连接来自encoder的输出。这一层有两个输入来自Encoder,一个输入来自Decoder内部,最终输出时,残差连接的输入也来自Decoder内部。

之前已经生成的所有词以及编码器对输入的完整表示,生成过程一直重复,直到生成结束标记。它的生成质量较高,模型设计也相对成熟,但速度比较慢,而且倘若中途错词的生成会影响后续所有词的生成。就是解码器主要有两种方式。一种是 AT (Auto-Regressive Translation,自回归翻译),这是最传统、最主流的序列生成方式。这种方式一次只生成一个词,在生成某个词时,模型的输入

另一种是 NAT (Non-Auto-Regressive Translation,非自回归翻译),它是为了解决 AT 的速度瓶颈而被提出的,其核心思想是并行生成整个输出序列,即尝试一次性(或在极少的步数内)生成输出序列中的所有词。这样每个输出词的预测无法依赖于其他已生成的输出词,而主要依赖于编码器对输入的表示。它需要先预测输出序列的长度 ,然后将所有位置的表示一次性送入解码器,由解码器并行地为所有位置输出预测的词。显而易见,它的优点是推理速度快,大大降低了延迟;缺点在于其生成质量较低。

2 量子计算基本定义

2.1 量子态

在量子力学和量子信息科学中,量子态(Quantum State)是描述一个量子系统物理状态的数学对象。它是量子理论的核心概念之一,用于预测系统在各种测量下的行为和结果的概率分布。

它通常由一个位于复数希尔伯特空间(Hilbert Space)中的单位向量表示。这个向量又通常用狄拉克符号(Dirac notation)写作 ket 形式:

|ψ⟩

对于单个量子比特(qubit),其希尔伯特空间是二维复向量空间。因此,任意单量子比特的纯态可表示为|0⟩、|1⟩两个基态的线性叠加:

|ψ⟩=α|0⟩+β|1⟩

其中:|0⟩、|1⟩分别可表示为\begin{pmatrix} 1\\ 0 \end{pmatrix}\begin{pmatrix} 0\\ 1 \end{pmatrix}

通过希尔伯特空间(Hilbert Space)是一个完备的复内积空间。字面上就可以看出,它满足三个核心性质。首先,它是一个定义在复数域上的线性空间,其中的元素称为“向量”,这些向量可以相加、能够与复数相乘,且运算封闭;其次,该空间中的任意两个向量可能定义一个复数内积;最终,这个空间中的任何柯西序列都收敛于该空间内的一个向量(完备性)。

狄拉克符号的核心由两部分构成,分别是ket符号(|ψ⟩)与bra符号(⟨ψ|)。 ket 相当于列向量,如前面所示; bra 是 ket 的共轭转置(Hermitian 共轭),相当于行向量,可用于与 ket 进行内积运算。

它的核心运算核心是内积运算(Inner Product)与外积运算(Outer Product)。两个量子态之间的内积写作 ⟨\phi|\psi⟩ ,表示态 |\psi⟩ 在 |\phi一个算符(矩阵),常用于构造投影算符或量子门。就是⟩ 方向上的投影幅度,结果是一个复数,当其为0时,称进行内积运算的两个态正交;他们之间外积的结果

同时前文表述中,\alpha\beta均为复数,且满足\left | \alpha \right |^{2} + \left | \beta \right |^{2} =1通过,由该公式能够联想到三角函数中的\left (cos \theta \right )^{2} + \left (sin \theta \right )^{2} = 1,因此,任意单量子比特的纯态又可表示为:

|ψ⟩= e^{i\eta }\cos\frac{\theta }{2} |0⟩+ e^{i\phi }\sin\frac{\theta }{2} |1⟩

其中 e^{i\eta }e^{i\phi})由欧拉公式给出,表示复平面上一个模长为 1 的复数,位于单位圆上,其与正实轴的夹角为\eta\phi)。

这个公式可以进一步演化为:|ψ⟩=e^{i\eta }\cos\frac{\theta }{2} |0⟩+ e^{i\left (\phi -\eta \right )}\sin\frac{\theta }{2} |1⟩)

那么可以进行下面的假设:

假设:\eta =0,那么 |ψ⟩=\cos\frac{\theta }{2} |0⟩+ e^{i\left (\phi -\eta \right )}\sin\frac{\theta }{2}|1⟩ , 能够用一个球体来直观理解,这个球体被称为布洛赫球(Bloch Sphere),如下图所示:

根据上图及公式:

\theta = 0时,|ψ⟩= |0⟩;

\theta = \pi时,|ψ⟩= |1⟩;

\theta =\frac{ \pi }{2} , \phi = 0时,|ψ⟩=\frac{\sqrt{2}}{2}( |0⟩ + |1⟩);

\theta =\frac{ \pi }{2} , \phi =\pi时,|ψ⟩=\frac{\sqrt{2}}{2}( |0⟩ - |1⟩);

\theta =\frac{ \pi }{2} , \phi =\frac{ \pi }{2}时,|ψ⟩=\cos\frac{\theta }{2}( |0⟩ +i|1⟩);

\theta =\frac{ \pi }{2} , \phi =\frac{ 3\pi }{2}时,|ψ⟩=\cos\frac{\theta }{2}( |0⟩ -i|1⟩);

2.2 量子演化

量子动力学(Quantum Dynamics)是量子力学的一个核心分支,研究量子系统如何随时间演化。它回答的疑问是:如果一个量子系统的初始状态已知,那么在后续任意时刻,它的状态将是什么?

量子动力学的一个核心原理是:封闭量子系统随时间演化的过程由酉算符(Unitary Operator)表示。这一理论来源于薛定谔方程(纯数学):

i\frac{\mathrm{d} }{\mathrm{d} t} | \psi\left ( t \right )⟩ = H |\psi\left ( t \right )

其中 H 可以看成是一个矩阵,而且通常是一个厄米矩阵(等于自己的共轭转置),它在薛定谔方程中被称为哈密顿量。

一个特定的酉算符,对应一段量子动力学过程。常用的单量子比特门如下:就是在量子计算中,量子动力学的思想被抽象为量子门操作和量子线路演化,每一个量子门都

X,Y,Z门。其中X 门(比特翻转门)相当于经典非门,在布洛赫球上表现为绕 x 轴旋转180度,它的矩阵表示为:就是1. 泡利矩阵门(Pauli Gates),它包括三种,分别

X = \begin{pmatrix} 0 &1 \\ 1& 0 \end{pmatrix}

Y 门可以同时实现比特和相位的翻转,在布洛赫球上表现为绕 y 轴旋转180度,它的矩阵表示为:

Y = \begin{pmatrix} 0 &-i \\ i& 0 \end{pmatrix}

Z 门(相位翻转门)可以改变 |1⟩ 的相位,在布洛赫球上表现为绕 z 轴旋转 180度,它的矩阵表示为:

Z= \begin{pmatrix} 1 &0 \\ 0& -1 \end{pmatrix}

2. 阿达玛门(Hadamard Gate, H),它能够创建等幅叠加态,是建立量子并行性的关键,在布洛赫球上表现为绕 y 轴旋转 90度后,再绕 x 轴旋转 180度,它的矩阵表示为:

H=\frac{1}{\sqrt{2}} \begin{pmatrix} 1 &1 \\ 1& -1 \end{pmatrix}

3. 相位门(Phase Gates)这类门不改变比特值,但引入相位变化。主导包括 S 门和 T 门。

S 门( \frac{\pi}{2}相位门)的矩阵表示为:

S=\begin{pmatrix} 1 &0 \\ 0& i \end{pmatrix}

T 门( \frac{\pi}{4}相位门)的矩阵表示为:

T= \begin{pmatrix} 1 &0 \\ 0& e^{i\frac{\pi}{4}} \end{pmatrix}

2.3 复合系统

量子力学中的一个基本公设是:一个复合系统的态空间是各个子系统态空间的张量积。

例如:假设有两个量子比特,第一个量子比特的态空间为H_{A} = \mathbb{C}^{2},第二个量子比特的态空间为H_{B} = \mathbb{C}^{2},则整个复合系统的态空间为:

H_{AB} =H_{A}\otimes H_{B} = \mathbb{C}^{2}\otimes\mathbb{C}^{2}=\mathbb{C}^{4}

标准基向量为:

∣0⟩⊗∣0⟩=∣00⟩;∣0⟩⊗∣1⟩=∣01⟩;∣1⟩⊗∣0⟩=∣10⟩;∣1⟩⊗∣1⟩=∣11⟩

其任意复合态都可写为这四个基向量的线性组合。

这儿可以回到量子态那一小节中狄拉克符号的运算部分,左 bra 右 ket 为内积运算,反之则为外积,若是多个 ket 则是张量积运算。

另外,在对一个复合系统进行操作时,对其子系统的独立操控由张量积来描述。

例如:假设有一个态:\frac{\sqrt{2}}{2}( |00⟩ + |11⟩),应该对第二个量子比特进行比特翻转操控,其计算如下:

3 总结

本周主要学习了Transformer的部分入门知识与量子计算的一些基本定义,对于部分概念理解感觉比较浅显,后续深入学习考虑结合实例或论文理解,并多进行复盘。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/918779.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025.9.26总结 - A

今天就一节英语,感觉还可以

关于“悬荡悟空”决策机制的简要技术说明

关于“悬荡悟空”决策机制的简要技术说明 “悬荡悟空”是一种尚处于构想阶段的智能决策机制,其核心在于尝试使系统具备在复杂情境中进行多路径因果并行推演与价值权衡的能力。 该机制在极端场景(如自动驾驶面临的突发…

最小二乘问题详解1:线性最小二乘

最小二乘法通过最小化误差平方和来寻找数据的最佳拟合模型,其核心原理在线性情况下可通过代数或几何方式推导出正规方程,揭示了参数估计与向量空间正交投影之间的深刻联系。1. 引言 最小二乘可以说是现代科学与工程的…

完整教程:分布式ID解决方案

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

20250926周五日记

20250926周五日记vision.middlebury.edu/stereo/data 计算机视觉领域的权威评测平台,可下载深度标签数据集。 https://github.com/googleinterns/IBRNet https://github.com/VITA-Group/GNT?tab=readme-ov-file http…

工程监理行业多模态视觉​​​​​​​大模型系统,打造工地行业全场景的监理智能生态

建筑工程监理行业在面对复杂多变的施工现场时,传统的监理方式面临诸多挑战。文明施工监管困难重重,难以实时监督施工现场的围挡是否达标、垃圾是否及时清运、施工道路是否硬化等;基坑风险排查依靠人工,效率低下且难…

济南哪家网站技术比较高老房装修

【网络取证箱】网络取证在线分析工具箱 在线网站查询工具箱,没什么介绍的,所见即所得,在本文档里补充了其它一些网络安全资源,请忽用于非法活动,仅供学习研究—【蘇小沐】 (一)Whois查询 主要…

淄博网站制作托管优化泉州网站制作专业

速率 指快慢 比特:1/0(1位比特) 速率:单位换算1000倍(小写b),如,b/s比特每秒;kb/s千比特每秒 存储容量:单位换算1024倍(大写B),如B字节&#xf…

网站团队建设wto最新新闻

网络编程主要的内容是: 1.TCP网络编程 2.http服务 3.rpc服务 4.websocket服务 一、rpc RPC 框架----- 远程过程调用协议RPC(Remote Procedure Call Protocol)-----允许像调用本地服务一样调用远程服务。 RPC是指远程过程调用,也就是说两台服…

数据结构——静态链表(c语言笔记) - 实践

数据结构——静态链表(c语言笔记) - 实践pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "…

完整教程:【鸿蒙心迹】摸蓝图,打地基

完整教程:【鸿蒙心迹】摸蓝图,打地基pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Mon…

深圳专业网站制作网站推广方法 优帮云

戳蓝字“CSDN云计算”关注我们哦!尽管最近新闻铺天盖地的“寒冬说”,由于我多年身处在稳定的大公司里,并没有太多的危机感。昨天大伙一起讨论年会表演什么节目,你演宁采臣,他男扮女装演小倩,大胖就演宁采臣…

北京网站制作报价国内军事新闻最新消息

在过往的功能中,有体现出在Excel上管理文件的极大优势,在文件的信息元数据中,有图片和音视频这两类特有的属性数据,此篇对过往功能的一个补充,特别增加了图片和音视频信息的遍历功能。使用场景在文件管理过程中&#x…

建站空间怎么选怎么做外贸企业网站

引用类型是一种数据结构,用于将数据和功能组织在一起,是一个对象 Object类型var obj new Object(); var obj {name: "xiaoming", age: 15}; 一般访问采用 alert(obj.name) Array类型数组 var arr new Array(n); n个项的数组 var arr new A…

电销如何介绍网站建设女孩学电子商务专业好就业吗

目录 一、线程同步 1.生产消费模型(或生产者消费者模型) 2.认识同步 (1)生产消费模型中的同步 (2)生产者消费者模型的特点 二、条件变量 1.认识条件变量 2.条件变量的使用 3.代码改造 三、基于阻…

网站设计 价格潍坊市城乡建设局网站

AR编程入门:解锁虚拟与现实交融的新世界 在数字化浪潮的推动下,增强现实(AR)技术正逐渐走进我们的日常生活,为我们带来前所未有的体验。对于初学者而言,AR编程可能显得既神秘又充满挑战。本文将从四个方面…

LuatOS Air780EPM 实现 HTTP 通信:从原理到代码实践

想用 LuatOS Air780EPM 开发板实现 HTTP 数据传输?本文从底层原理出发,逐步引导你完成 HTTP 客户端的搭建,并通过真实案例展示完整的开发流程。 一、HTTP 概述 1.1 什么是 HTTP? HTTP 全称为 HyperText Transfer P…

搜维尔科技:Senseglove Nova 2触觉手套:虚拟训练、VR/AR模拟和研究中的触觉反馈

用于研究的SenseGlove触觉反馈数据手套 使用市场上唯一一款结合了力反馈、振动触觉反馈和运动捕捉以及紧凑无线设计的触觉手套来收集数据。 图片 训练 传统培训成本高昂且风险高,要么需要重复资产,要么需要停产。在培…

深入解析:盟接之桥EDI软件:中国制造全球化进程中的连接挑战与路径探索

深入解析:盟接之桥EDI软件:中国制造全球化进程中的连接挑战与路径探索pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: …

【STM32H7】基于CubeMX从零开始搭建的HAL库工程模板(包含串口重定向和DSP库)

前言 Keil和CubeMX以及H7硬件支持包自行在网上搜索下载,都下最新版即可。 这里提供一个下载H7硬件支持包的网址:ARM 在这里我们会从零开始(除了下载安装),配置一个完整的方便管理的H7基本工程,下面是基本工程要达…