note
- 这里记录个人博客中常用的数学符号数学格式和对应含义
文章目录
- note
- 数与数组
- 索引
- 集合
- 线性代数
- 微积分
- 概率和信息论
- 数据与概率分布
- 函数
- 深度学习中的常用数学表达方式
数与数组
α 标量 α 向量 A 矩阵 A 张量 I n n 行 n 列单位矩阵 v w 单词 w 的分布式向量表示 e w 单词 w 的独热向量表示: [ 0 , 0 , … , 1 , 0 , … 0 ] , w 下标处元素为 1 \begin{array}{ll} \boldsymbol{\alpha} & \text { 标量 } \\ \boldsymbol{\alpha} & \text { 向量 } \\ \boldsymbol{A} & \text { 矩阵 } \\ \mathbf{A} & \text { 张量 } \\ \boldsymbol{I}_n & n \text { 行 } n \text { 列单位矩阵 } \\ \boldsymbol{v}_w & \text { 单词 } w \text { 的分布式向量表示 } \\ \boldsymbol{e}_w & \text { 单词 } w \text { 的独热向量表示: }[0,0, \ldots, 1,0, \ldots 0], w \text { 下标处元素为 } 1 \end{array} ααAAInvwew 标量 向量 矩阵 张量 n 行 n 列单位矩阵 单词 w 的分布式向量表示 单词 w 的独热向量表示: [0,0,…,1,0,…0],w 下标处元素为 1
索引
α i 向量 α 中索引 i 处的元素 α − i 向量 α 中除索引 i 之外的元素 w i : j 序列 w 中从第 i 个元素到第 j 个元素组成的片段或子序列 A i j 矩阵 A 中第 i 行、第 j 列处的元素 A i : 矩阵 A 中第 i 行 A : j 矩阵 A 中第 j 列 A i j k 三维张量 A 中索引为 ( i , j , k ) 处元素 A : : i 三维张量 A 中的一个二维切片 \begin{array}{ll} \alpha_i & \text { 向量 } \boldsymbol{\alpha} \text { 中索引 } i \text { 处的元素 } \\ \alpha_{-i} & \text { 向量 } \boldsymbol{\alpha} \text { 中除索引 } i \text { 之外的元素 } \\ w_{i: j} & \text { 序列 } w \text { 中从第 } i \text { 个元素到第 } j \text { 个元素组成的片段或子序列 } \\ A_{i j} & \text { 矩阵 } \boldsymbol{A} \text { 中第 } i \text { 行、第 } j \text { 列处的元素 } \\ \boldsymbol{A}_{i:} & \text { 矩阵 } \boldsymbol{A} \text { 中第 } i \text { 行 } \\ \boldsymbol{A}_{: j} & \text { 矩阵 } \boldsymbol{A} \text { 中第 } j \text { 列 } \\ A_{i j k} & \text { 三维张量 } \mathbf{A} \text { 中索引为 }(i, j, k) \text { 处元素 } \\ \mathbf{A}_{:: i} & \text { 三维张量 } \mathbf{A} \text { 中的一个二维切片 } \end{array} αiα−iwi:jAijAi:A:jAijkA::i 向量 α 中索引 i 处的元素 向量 α 中除索引 i 之外的元素 序列 w 中从第 i 个元素到第 j 个元素组成的片段或子序列 矩阵 A 中第 i 行、第 j 列处的元素 矩阵 A 中第 i 行 矩阵 A 中第 j 列 三维张量 A 中索引为 (i,j,k) 处元素 三维张量 A 中的一个二维切片
集合
A 集合 R 实数集 C 复数集 { 0 , 1 , … , n } 含 0 和 n 的正整数的集合 [ a , b ] a 到 b 的实数闭区间 ( a , b ] a 到 b 的实数左开右闭区间 \begin{array}{ll} \mathbb{A} & \text { 集合 } \\ \mathbb{R} & \text { 实数集 } \\ \mathbb{C} & \text { 复数集 } \\ \{0,1, \ldots, n\} & \text { 含 } 0 \text { 和 } n \text { 的正整数的集合 } \\ {[a, b]} & a \text { 到 } b \text { 的实数闭区间 } \\ (a, b] & a \text { 到 } b \text { 的实数左开右闭区间 } \end{array} ARC{0,1,…,n}[a,b](a,b] 集合 实数集 复数集 含 0 和 n 的正整数的集合 a 到 b 的实数闭区间 a 到 b 的实数左开右闭区间
线性代数
A ⊤ 矩阵 A 的转置 A ⊙ B 矩阵 A 与矩阵 B 的 Hadamard 乘积 det ( A ) 矩阵 A 的行列式 [ x ; y ] 向量 x 与 y 的拼接 [ U ; V ] 矩阵 A 与 V 沿行向量拼接 x ⋅ y 或 x ⊤ y 向量 x 与 y 的点积 \begin{array}{ll} \boldsymbol{A}^{\top} & \text { 矩阵 } \boldsymbol{A} \text { 的转置 } \\ \boldsymbol{A} \odot \boldsymbol{B} & \text { 矩阵 } \boldsymbol{A} \text { 与矩阵 } \boldsymbol{B} \text { 的 Hadamard 乘积 } \\ \operatorname{det}(\boldsymbol{A}) & \text { 矩阵 } \boldsymbol{A} \text { 的行列式 } \\ {[\boldsymbol{x} ; \boldsymbol{y}]} & \text { 向量 } \boldsymbol{x} \text { 与 } \boldsymbol{y} \text { 的拼接 } \\ {[\boldsymbol{U} ; \boldsymbol{V}]} & \text { 矩阵 } \boldsymbol{A} \text { 与 } \boldsymbol{V} \text { 沿行向量拼接 } \\ \boldsymbol{x} \cdot \boldsymbol{y} \text { 或 } \boldsymbol{x}^{\top} \boldsymbol{y} & \text { 向量 } \boldsymbol{x} \text { 与 } \boldsymbol{y} \text { 的点积 } \end{array} A⊤A⊙Bdet(A)[x;y][U;V]x⋅y 或 x⊤y 矩阵 A 的转置 矩阵 A 与矩阵 B 的 Hadamard 乘积 矩阵 A 的行列式 向量 x 与 y 的拼接 矩阵 A 与 V 沿行向量拼接 向量 x 与 y 的点积
微积分
d y d x y 对 x 的导数 ∂ y ∂ x y 对 x 的偏导数 ∇ x y y 对向量 x 的梯度 ∇ x y y 对矩阵 X 的梯度 ∇ x y y 对张量 X 的梯度 \begin{array}{ll} \frac{\mathrm{d} y}{\mathrm{~d} x} & y \text { 对 } x \text { 的导数 } \\ \frac{\partial y}{\partial x} & y \text { 对 } x \text { 的偏导数 } \\ \nabla \boldsymbol{x} y & y \text { 对向量 } \boldsymbol{x} \text { 的梯度 } \\ \nabla \boldsymbol{x} y & y \text { 对矩阵 } \boldsymbol{X} \text { 的梯度 } \\ \nabla \mathbf{x} y & y \text { 对张量 } \mathbf{X} \text { 的梯度 } \end{array} dxdy∂x∂y∇xy∇xy∇xyy 对 x 的导数 y 对 x 的偏导数 y 对向量 x 的梯度 y 对矩阵 X 的梯度 y 对张量 X 的梯度
概率和信息论
a ⊥ b 随机变量 a 与 b 独立 a ⊥ b ∣ c 随机变量 a 与 b 关于 c 条件独立 P ( a ) 离散变量概率分布 p ( a ) 连续变量概率分布 a ∼ P 随机变量 a 服从分布 P E x ∼ P ( f ( x ) ) 或 f ( x ) 在分布 P ( x ) 下的期望 E ( f ( x ) ) Var ( f ( x ) ) f ( x ) 在分布 P ( x ) 下的方差 Cov ( f ( x ) , g ( x ) ) f ( x ) 与 g ( x ) 在分布 P ( x ) 下的协方差 H ( f ( x ) ) 随机变量 x 的信息熵 D K L ( P ∥ Q ) 概率分布 P 与 Q 的 K L 散度 N ( μ , Σ ) 均值为 μ 、协方差为 Σ 的高斯分布 \begin{array}{ll} a \perp b & \text { 随机变量 } a \text { 与 } b \text { 独立 } \\ a \perp b \mid c & \text { 随机变量 } a \text { 与 } b \text { 关于 } c \text { 条件独立 } \\ P(a) & \text { 离散变量概率分布 } \\ p(a) & \text { 连续变量概率分布 } \\ a \sim P & \text { 随机变量 } a \text { 服从分布 } P \\ \mathbb{E}_{x \sim P}(f(x)) \text { 或 } & f(x) \text { 在分布 } P(x) \text { 下的期望 } \\ \mathbb{E}(f(x)) & \\ \operatorname{Var}(f(x)) & f(x) \text { 在分布 } P(x) \text { 下的方差 } \\ \operatorname{Cov}(f(x), g(x)) & f(x) \text { 与 } g(x) \text { 在分布 } P(x) \text { 下的协方差 } \\ H(f(x)) & \text { 随机变量 } x \text { 的信息熵 } \\ D_{K L}(P \| Q) & \text { 概率分布 } P \text { 与 } Q \text { 的 } \mathrm{KL} \text { 散度 } \\ \mathcal{N}(\boldsymbol{\mu}, \boldsymbol{\Sigma}) & \text { 均值为 } \boldsymbol{\mu} \text { 、协方差为 } \boldsymbol{\Sigma} \text { 的高斯分布 } \end{array} a⊥ba⊥b∣cP(a)p(a)a∼PEx∼P(f(x)) 或 E(f(x))Var(f(x))Cov(f(x),g(x))H(f(x))DKL(P∥Q)N(μ,Σ) 随机变量 a 与 b 独立 随机变量 a 与 b 关于 c 条件独立 离散变量概率分布 连续变量概率分布 随机变量 a 服从分布 Pf(x) 在分布 P(x) 下的期望 f(x) 在分布 P(x) 下的方差 f(x) 与 g(x) 在分布 P(x) 下的协方差 随机变量 x 的信息熵 概率分布 P 与 Q 的 KL 散度 均值为 μ 、协方差为 Σ 的高斯分布
数据与概率分布
X 或 D 数据集 x ( i ) 数据集中第 i 个样本(输入) y ( i ) 或 y ( i ) 第 i 个样本 x ( i ) 的标签(输出) \begin{array}{ll} \mathbb{X} \text { 或 } \mathbb{D} & \text { 数据集 } \\ \boldsymbol{x}^{(i)} & \text { 数据集中第 } i \text { 个样本(输入) } \\ \boldsymbol{y}^{(i)} \text { 或 } y^{(i)} & \text { 第 } i \text { 个样本 } \boldsymbol{x}^{(i)} \text { 的标签(输出) } \end{array} X 或 Dx(i)y(i) 或 y(i) 数据集 数据集中第 i 个样本(输入) 第 i 个样本 x(i) 的标签(输出)
函数
f : A ⟶ B 由定义域 A 到值域 B 的函数(映射) f f ∘ g f 与 g 的复合函数 f ( x ; θ ) 由参数 θ 定义的关于 x 的函数(也可以直接写作 f ( x ) , 省略 θ ) log x x 的自然对数函数 σ ( x ) Sigmoid 函数 1 1 + exp ( − x ) ∥ x ∥ p x 的 L p 范数 ∥ x ∥ x 的 L 2 范数 1 condition 条件指示函数:如果 condition 为真, 则值为 1 ; 否则值为 0 \begin{array}{ll} f: \mathcal{A} \longrightarrow \mathcal{B} & \text { 由定义域 } \mathcal{A} \text { 到值域 } \mathcal{B} \text { 的函数(映射) } f \\ f \circ g & f \text { 与 } g \text { 的复合函数 } \\ f(\boldsymbol{x} ; \boldsymbol{\theta}) & \text { 由参数 } \boldsymbol{\theta} \text { 定义的关于 } \boldsymbol{x} \text { 的函数(也可以直接写作 } f(\boldsymbol{x}), \text { 省略 } \boldsymbol{\theta}) \\ \log x & x \text { 的自然对数函数 } \\ \sigma(x) & \text { Sigmoid 函数 } \frac{1}{1+\exp (-x)} \\ \|\boldsymbol{x}\|_p & \boldsymbol{x} \text { 的 } L^p \text { 范数 } \\ \|\boldsymbol{x}\| & \boldsymbol{x} \text { 的 } L^2 \text { 范数 } \\ \mathbf{1}^{\text {condition }} & \text { 条件指示函数:如果 condition 为真, 则值为 } 1 \text {; 否则值为 } 0 \end{array} f:A⟶Bf∘gf(x;θ)logxσ(x)∥x∥p∥x∥1condition 由定义域 A 到值域 B 的函数(映射) ff 与 g 的复合函数 由参数 θ 定义的关于 x 的函数(也可以直接写作 f(x), 省略 θ)x 的自然对数函数 Sigmoid 函数 1+exp(−x)1x 的 Lp 范数 x 的 L2 范数 条件指示函数:如果 condition 为真, 则值为 1; 否则值为 0
深度学习中的常用数学表达方式
- 给定词表 V \mathbb{V} V, 其大小为 ∣ V ∣ |\mathbb{V}| ∣V∣
- 序列 x = x 1 , x 2 , … , x n x=x_1, x_2, \ldots, x_n x=x1,x2,…,xn 中第 i i i 个单词 x i x_i xi 的词向量 v x i \boldsymbol{v}_{x_i} vxi
- 损失函数 L \mathcal{L} L 为负对数似然函数: L ( θ ) = − ∑ ( x , y ) log P ( y ∣ x 1 … x n ) \mathcal{L}(\boldsymbol{\theta})=-\sum_{(x, y)} \log P\left(y \mid x_1 \ldots x_n\right) L(θ)=−∑(x,y)logP(y∣x1…xn)
- 算法的空间复杂度为 O ( m n ) \mathcal{O}(m n) O(mn)