隨機變量本質之最終闡述

news/2025/11/6 19:26:44/文章来源:https://www.cnblogs.com/Troverld/p/19197564

\[\newcommand{\cur}[1]{\left\{#1\right\}} \newcommand{\s}{\mathscr} \newcommand{\comp}{\complement} \newcommand{\co}[2]{{\color{#1}{#2}}} \newcommand{\Z}{\mathbb Z} \newcommand{\R}{\mathbb R} \newcommand{\eps}{\epsilon} \newcommand{\eqd}{\overset d=} \newcommand{\d}{\mathrm d} \newcommand{\mat}[1]{\begin{matrix}#1\end{matrix}} \newcommand{\E}{\mathop{\mathbb E}} \newcommand{\io}{\operatorname{i.o.}} \newcommand{\var}{\text{var}} \]

Measure Theory

Probability Space

概率空间 (probablity space),其是三元组 \((\Omega,\s F,P)\),其中:

\(\Omega\) 被称作 **样本空间 **(sample space),可以是任意集合,包含了所有可能的 结果 (outcome)。例如,骰子的场合就是 \(\Omega=\cur{1,2,3,4,5,6}\)

\(\s F\) 被称作 事件域 (event field),刻画了样本空间中所有可能的 事件 (event)。其是一个 \(\sigma\)-代数 (\(\sigma\)-Algebra) 或 \(\sigma\)-域 (\(\sigma\)-Field),即满足如下两条件的 \(\Omega\) 上非空集族:

  • 对补集封闭。
  • 对可数并集封闭。

由这两条定义,可以得到如下推论:

  • 包含空集和全集。
  • 对可数交集封闭。

由 De Morgan 律,有 \(\bigcap A_i=(\bigcup A_i^C)^C\),于是第二条推出。另一方面,\(A\cup A^C=\Omega,\varnothing=\Omega^C\),于是第一条推出。

\(\s F\) 刻画了哪些事件的概率是可测的,这一点将在之后进一步说明。

来一个示例。例如,可以取 \(\Omega=\Z\)\(\s A\) 为所有满足 \(A\)\(A^C\) 是有限集的集合,则其是一个合法的 \(\sigma\)-代数。

在没有 \(P\) 时,\((\Omega,\s F)\) 共同组合成一个 可测空间 (measurable space),即于其上可以定义 测度 (measure) 的空间。测度是一个非负可数加性集合函数,即函数 \(\mu:\s F\to\R\cup\cur{+\infty}\) 满足:

  • 非负性\(\mu(A)\geq\mu(\varnothing)=0\)
  • 可数加性:对于不交、可数集合序列 \(A_1,A_2,\dots\),有 \(\mu(\bigcup A_i)=\sum\mu(A_i)\)
  • 特别地,测度允许某些集合上取值为正无穷。这就是为什么上式中特别包括了 \(\cur{+\infty}\)

如果测度额外满足 规范性 (normalization) 即 \(\mu(\Omega)=1\),其就是一个 概率测度 (probability measure)。概率空间上的 \(P\) 就是一个概率测度 \(\s F\to[0,1]\),其衡量所有可测事件发生的概率,被称作 概率函数 (probability function, prob. func.)

由测度的定义,可以推出以下性质:

  • 单调性 (monotonicity):如果 \(A\sube B\),则 \(\mu(A)\leq\mu(B)\)

    显然,因为 \(\mu(B)=\mu(A)+\mu(B\setminus A)\)

  • 次可加性 (subadditivity):对于 \(A\sube\bigcup_{i=1}^\infty A_i\),有 \(\mu(A)\leq\sum_{i=1}^\infty\mu(A_i)\)

    可以定义 \(A_n'=A_n\cap A\)\(B_n=\bigcup_{i=1}^nA'_i\)

    \(A=\bigcup_{n=1}^\infty A'_n=\bigcup_{n=1}^\infty B_n\)。(这两条要对每个元素分析,得到两边互相包含)

    于是对有限可加性取极限即得 \(\mu(A)=\sum_{n=1}^\infty\mu(B_n)\leq\sum_{n=1}^\infty\mu(A_n)\)

  • 下连续性 (continuity from below):对于递增的集合列 \(A_1\sube A_2\sube\dots\)\(\bigcup A_i=A\),则 \(\mu(A_i)\) 从下方近似(即递增且取极限) \(\mu(A)\)。引入「单调递增逼近」的符号 \(\uparrow\),则其亦可记作:若 \(A_i\uparrow A\),则 \(\mu(A_i)\uparrow\mu(A)\)

    首先先严格定义 \(\uparrow\):在集合的场合,\(A_i\uparrow A\)\(A_1\sube A_2\sube\dots\)\(\bigcup A_i=A\);在数列的场合,\(a_i\uparrow a\)\(a_1\leq a_2\leq\dots\)\(\lim a_i=a\)这个性质比「极限为」更强

    定义 \(B_n=A_n\setminus A_{n-1}\),则 \(\bigcup_{m=1}^\infty B_m=A,\bigcup_{m=1}^nB_m=A_n\)。(这两条同样要对每个元素分析,得到两边互相包含)

    于是对有限可加性取极限得 \(\mu(A)=\sum_{m=1}^\infty\mu(B_m)=\lim_{n\to\infty}\sum_{m=1}^n\mu(B_n)=\lim_{n\to\infty}\mu(A_n)\)

  • 上连续性 (continuity from above):若 \(A_i\downarrow A\),则 \(\mu(A_i)\downarrow\mu(A)\)

同理。


考虑一组 \(\sigma\)-域集合 \(\s F_i:i\in I\),其中 \(I\) 是一组可能不可数的下标集。则对于一切 \(A\in\bigcap\s F_i\),均有 \(A^C\in\bigcap\s F_i\);对于 \(A_i\in\bigcap\s F_j\),有 \(\bigcup A_i\in\bigcap\s F_j\),然后知,\(\sigma\)-域的交仍然是 \(\sigma\)-域。

所以,令 \(\s A\)\(\Omega\) 上的一个集族,则存在一个最小的 \(\sigma\)-域其包含 \(\s A\),记作 \(\sigma(\s A)\)——\(\s A\) 生成 (generate) 的最小 \(\sigma\)-域。

这需要两件来自集合论的结论:任何集合(不管它是否可数)都存在幂集,因此可以找到某个包含 \(\s A\)\(\sigma\)-域;在考虑所有包含 \(\s A\)\(\sigma\)-域时,可以为它们分配一组可能不可数的下标集。

例如,令 \(\Omega=\R^d\)\(\s A\)\(\R^d\) 上所有开集构成的集合,则所谓的 Borel 集 \(B(\R^d)=\sigma(\s A)\)。在实数的场合,\((\R,B(\R))\) 上可以定义一个测度 \(\mu\)。定义其需要引入辅助概念 Stieltjes 测度函数 (Stieltjes measure function, S.M.F.) \(F(x)\),其是满足下列条件的函数:

  • 不降性(在实数上,这是合法的)。
  • 右连续(\(\lim_{y\to x^+}F(y)=F(x)\);或者,采用我们最新学到的神秘记号,有 \(\lim_{y\downarrow x}F(y)=F(x)\))。

则一切 S.M.F 都唯一对应一个 \((\R,B(\R))\) 上的测度 \(\mu\),满足 \(\mu((a,b])=F(b)-F(a)\)。证明忽略。

特别地,当取 S.M.F 为 \(F(x)=x\) 时,对应的测度称作 Lebesgue 测度

Random Variable

对于两组可测空间 \((\Omega,\s F)\)\((S,\s G)\),一个 可测映射 (measurable map) \(X:\Omega\to S\) 满足:

  • 对于一切 \(B\in\s G\),都有 \(X^{-1}(B)=\cur{w:X(w)\in B}\in\s F\)。即,所有 \(S\) 上的可测集的原像都属于 \(\s F\)

很多时候,\(X^{-1}(B)\) 被简记为 \(\cur{X\in B}\)。更进一步,若 \(B\) 是类似于 \((-\infty,x)\) 一样的简单集合(这发生在 \(S=\R\) 的场合),则它亦可被记作 \(\cur{X<x}\)

此时 \(X\) 被称作是 \(\s F\)-可测的,且亦可简写为 \(X\in\s F\)

当定义域 \((\Omega,\s F)\) 上存在概率函数 \(P\) 时,其称为一个概率论公理体系下的 随机元 (random element)。这个随机元可以由定义域上的概率函数,诱导 出值域上的一个与之对应的概率函数。

\((S,\s G)=(\R^d,B(\R^d))\) 时,\(X\) 被称作 随机向量 (random vector)。当 \((S,\s G)=(\R,B(\R))\) 时,被称作 随机变量 (random variable),记作 r.v.。也即,一个随机元不是变量,而是一个映射

可测映射的充分条件

对于满足 \(\sigma(\s A)=\s G\) 的集族 \(A\),只要 \(\forall A\in\s A\) 都有其原像属于 \(\s F\),则 \(X\) 是可测映射。即,只要选择一组生成集验证即可。

\(\s B=\cur{B:X^{-1}(B)\in\s F}\) 是一个 \(\sigma\)-域:因为 \(X^{-1}(\bigcup B_i)=\bigcup X^{-1}(B_i)\)\(X^{-1}(B^C)=\cur{w:X(w)\notin B}=X^{-1}(B)^C\)。则有 \(\s B\supe\s A\)。因为 \(\sigma(\s A)=\s G\),所以 \(\s B\supe\s G\),所以 \(X\) 是可测映射。

事实上,在 \((\Omega,\s F)\)\(S\)\(X\) 均确定时,这里的 \(\s B\),即所有原像属于 \(\s F\) 的集合构成的集族,是最大的满足 \(X\) 是可测映射的 \(\sigma\)-域。

例:\(f(x_1,\dots,x_n)=\sum x_i\)\((\R^n,B(\R^n))\to(\R,B(\R))\) 的可测映射。

定理:对于 \((\Omega,\s F)\to(S,\s G)\) 上的可测映射 \(X\),存在一个最小的 \(\s F'\) 使得 \(X\) 仍是 \((\Omega,\s F')\to(S,\s G)\) 的可测映射。

首先,由可测映射的定义,必有 \(\cur{X^{-1}(B):\forall B\in\s G}\sube\s F\),且易证其为 \(\sigma\)-域。

可以证明其是最小的使 \(X\) 仍是可测映射的 \(\sigma\)-域:因为所有其它满足该条件的 \(\sigma\)-域全都包含之。

称这个 \(X^{-1}(B)\)\(\sigma(X)\),即 \(X\) 生成 (generate) 的 \(\sigma\)-域。当然,其除了依赖 \(X\) 以外,还与 \(\s G\) 有关——但是符号里却没有 \(\s G\) 只有 \(X\)。这是因为一般 \(X\) 都是随机变量,此时 \(\s G\) 是 Borel 集。

可测映射的复合律:如果 \(X\)\((\Omega,\s F)\to(S,\s G)\) 的可测映射,\(f\)\((S,\s G)\to(T,\s H)\) 的可测映射,则 \(f\circ X\) 也是可测映射。

只需证明 \(\forall B\in\s H\),有 \((f\circ X)^{-1}(B)\in\s F\)。也即,\(X^{-1}(f^{-1}(B))\in\s F\)。因为 \(f^{-1}(B)\in\s G\) 所以自然成立。

特别地,当 \(X\) 是 r.v. 也即 \((S,\s G)=(\R,B(\R))\),且 \(f\)\(\R\) 上的一个函数(对于绝大多数函数,它同时也是可测映射),可以有 \(f\circ X\) 被简写为 \(f(X)\)。由上述定理,只要 \(f\) 是可测的,其仍然是一个概率论公理体系下的 r.v.。

Distribution

分布 (distribution) 描述当 \(X\) 是 r.v. 时,诱导 \((\R,B(\R))\) 上概率测度 \(\mu\) 的过程。具体而言,对于 \(A\in B(\R)\) \(\mu(A)=P(X^{-1}(A))\)

我们需要保证 \(\mu\) 仍然是概率测度。非负性易知,可数加性因为当 \(A_i\) 不交时,\(X^{-1}(A_i)\) 同样不交,于是 \(P\) 的可数加性即可传递到 \(\mu\) 上。此外,必有 \(X^{-1}(\R)=\Omega\),于是规范性也被传递了。

于是,\((\R,B(\R),\mu=P\circ X^{-1})\) 即为一个概率空间。

可以定义 累积分布函数 (cumulative distribution function, CDF——也简称为 distribution function) \(F(x)=\mu\Big((-\infty,x]\Big)=P(\cur{\omega:X(\omega)\leq x})\),或简写为 \(P(X\leq x)\)

这里的 \(F\) 仅仅是 \((\R,B(\R))\to[0,1]\) 的一个常规函数罢了,没有神秘的概率论需求。

其有如下性质:

  • 不降性。当 \(x\leq y\) 时,因为 \(\cur{X\leq x}\sube\cur{X\leq y}\),所以 \(P(X\leq x)\leq P(X\leq y)\)
  • \(\lim\limits_{x\to+\infty}F(x)=1,\lim\limits_{x\to-\infty}=0\)。前者是因为有 \(\cur{X\leq x}\uparrow\Omega\),后者是因为有 \(\cur{X\leq x}\downarrow\varnothing\)
  • 右连续,即 \(\lim\limits_{y\to x^+}F(y)=F(x)\)。这是因为 \(\cur{X\leq y}\downarrow\cur{X\leq x}\)
  • 定义 \(F(x^-)=\lim\limits_{y\to x^-}F(y)\),则 \(F(x^-)=P(X<x)\)。当然,此处的 \(P(X<x)\) 仍然是 \(P(\cur{\omega:X(\omega)<x})\) 的简写。这是因为 \(\cur{X\leq y}\uparrow\cur{X\co{red}<x}\)
  • \(P(X=x)=F(x)-F(x^-)\)。这是因为 \(\cur{X<x}\cup\cur{x}=\cur{X\leq x}\)

这些性质保证 \(F\) 是一个 Stieltjes 测度函数。

定理:如果 \(F\) 满足上述定理中的前三条(也即正无穷极限为 \(1\)、负无穷极限为 \(0\) 的 Stieltjes 测度函数),其就是某个 r.v. 的 CDF。

直接建。令 \(\Omega=(0,1)\)\(\s F=B((0,1))\)\(P\) 是 Lebesgue 测度。\(X(\omega)=\sup\cur{y:F(y)<\omega}\)

引理:\(\cur{\omega:X(\omega)\leq x}=\cur{\omega:\omega\leq F(x)}\)

  • 令左侧为 \(A\),右侧为 \(B\)。下证 \(B\sube A\)\(B^C\sube A^C\)
  • 前者是因为当 \(\omega\leq F(x)\) 时,有 \(x\notin\cur{y:F(y)<\omega}\),且因为对于该集合中的 \(y'\),一切 \(y''\leq y'\) 都属于该集合(由单调性),所以必有 \(x>y'\),于是 \(x\) 大于等于集合上确界即 \(X(\omega)\)
  • 后者是因为当 \(\omega>F(x)\) 时,由 \(F\) 的右连续性,可以找到 \(\eps>0\) 使得 \(\omega>F(x+\eps)\),由 \(X(\omega)\) 的定义有 \(X(\omega)\geq x+\eps>x\)

于是 \(P(X\leq x)=P({\omega:\omega\leq F(x)})=F(x)\)。特别地,最后一个等号隐式地使用了 \(F\) 的无穷极限性质。

\(F\)\(\mu\) 是一一对应的,但和引导其的 \(X\) 却不是。因此,如果 \(X\)\(Y\) 对应同一个分布,它们即为 同分布 (equal-distribution),可记作 \(X\eqd Y\)

假如存在 \(f(x)\) 使得 \(F(x)=\int_{-\infty}^xf(y)\d y\),则称作 \(X\) 拥有 密度函数 (distribution function) \(f\),此时称 \(X\)绝对连续 (absolutely continuous) r.v.。

\(X\) 是一个 离散 (discrete) r.v.,假如存在一个可数集 \(S\),使得 \(P(X\notin S)=0\)

Integral

在一元微积分的场合,我们有 Riemann-Stieltjes 积分:

\[\sum_{i=1}^nX(\tilde w_i)P(\omega\in(\tilde w_{i-1},\tilde w_i))\to\int X(\omega)\d P(\omega) \]

简写为 \(\int X\d P\)。更一般地,此处的 \(P\) 可以变为任何测度 \(\mu\),进而得到 \(\int X\d\mu\) 的定义。

现在我们希望将其扩展到任何测度空间。当然,为了避免积分出现不良定义等场合,我们只在意一类特殊的测度,即 \(\sigma\)-有限测度 (\(\sigma\)-finite measure),其存在一个集合列 \(A_i\in\s F\),使得每一个 \(\mu(A_i)<\infty\)\(\bigcup_i A_i=\Omega\)。Lebesgue 测度即为一个 \(\sigma\)-有限测度。

我们希望我们的积分满足以下条件:

  • 对于 几乎处处 (a.e.) 非负(也即 \(\mu(\cur{\omega:\varphi(\omega)<0})=0\))的随机变量 \(\varphi\),有 \(\int\varphi\d\mu\geq0\)

  • 对于一切实数 \(a\),有 \(\int a\varphi\d\mu=a\int\varphi\d\mu\)

  • \(\int(\varphi+\psi)\d\mu=\int\varphi\d\mu+\int\psi\d\mu\)

  • 若 a.e. \(\varphi\leq\psi\),则 \(\int\varphi\d\mu\leq\int\psi\d\mu\)

    因为 \(\psi-\varphi\geq0\) a.e.,而 \(\psi=(\psi-\varphi)+\varphi\)

  • 若 a.e. \(\varphi=\psi\),则 \(\int\varphi\d\mu=\int\psi\d\mu\)

    因为 a.e. \(\varphi\leq\psi\) 且 a.e. \(\varphi\geq\psi\)

  • \(|\int\varphi\d\mu|\leq\int|\varphi|\d\mu\)

    \(\varphi\leq|\varphi|\)。于是 \(\int\varphi\d\mu\leq\int|\varphi|\d\mu\)

    另一方面,\(-\varphi\leq|\varphi|\),于是 \(-\int\varphi\d\mu=\int(-\varphi)\d\mu\leq\int|\varphi|\d\mu\)。这里必须使用第二条在 \(a=-1\) 时,才能把负号移进去。

因此,只要前三条得证,后三条自然得证。

现在对于四种场合,依次定义符合前三条的积分。


定义:一个 简单函数 (simple function) 可以找到 \(n\) 个不交且测度非无穷的集合 \(A_1,\dots,A_n\) 以及对应的系数 \(a_1,\dots,a_n\),使得 \(\varphi(\omega)=\sum_{i=1}^na_i1_{A_i}(\omega)\),其中 \(1_A(\omega)\)指示函数 (indicator function) \(1_A(\omega)=[\omega\in A]\)

对于简单函数,我们定义

\[\int\varphi\d\mu=\sum_{i=1}^na_i\mu(A_i) \]

现在证明其满足前面的条件。

前两条易(?)证。

第三条,考虑 \(\varphi=\sum_{i=1}^na_iI_{A_i},\psi=\sum_{j=1}^mb_jI_{B_j}\)。定义 \(A_0=\bigcup_jB_j\setminus\bigcup_iA_i\)\(B_0=\bigcup_iA_i\setminus\bigcup_jB_j\),且令 \(a_0=b_0=0\),然后有 \(\varphi+\psi=\sum_{i=0}^n\sum_{j=0}^m(a_i+b_j)I_{A_i\cap B_j}\)

于是 \(\varphi+\psi\) 亦是简单函数,且易(?)验证两侧积分相等。


定义:一个 有界函数 (bounded function) 满足:

  • 存在一个 \(E\) 使得 \(\mu(E)<+\infty\)\(\forall\omega\in E^c,f(\omega)=0\)
  • 存在一个 \(M\) 使得一切 \(w\) 都有 \(|f(\omega)|<M\)
  • 也即,其在定义域和值域上双重有界。

那么,定义

\[\int f\d u=\sup_{\varphi\leq f,\varphi\text{ is simple}}\int\varphi\d\mu=\inf_{\psi\geq f,\psi\text{ is simple}}\int\psi\d\mu \]

首先要证明两定义相等。

易知 \(\leq\) 号取得。下证 \(\geq\) 号。

对于某个 \(n\),关于 \(-n\leq k\leq n\)\(k\) 定义 \(E_k=\cur{\omega\in E:\dfrac{kM}n\geq f(\omega)>\dfrac{(k-1)M}n}\),也即将整个值域以 \(\dfrac Mn\) 为单位切片。因为 \(f\) 是可测映射,所以必有 \(E_k=\cur{f\in\left(\dfrac{(k-1)M}n,\dfrac{kM}n\right]}\in\s F\),即 \(E_k\) 是良定义的。

定义 \(\psi_n=\sum_{k=-n}^n\dfrac{kM}n1_{E_k},\varphi_n=\sum_{k=-n}^n\dfrac{(k-1)M}n1_{E_k}\),即相当于在每一片中,令 \(\psi\) 取其上界,\(\varphi\) 取其下界,相当于 Darboux 上下和——只不过它们是 对定义域切分,而此处是 对值域切分。因为可测映射的坚实基础,我们得以描述这一从值域到定义域的转换,并获得比 R-S 更好的效果。

于是 \(\psi_n(x)-\varphi_n(x)=(M/n)1_E(x)\),于是 \(\int(\psi_n-\varphi_n)\d\mu=\dfrac Mn\mu(E)\)。则

\[\sup_{\varphi\leq f}\int\varphi\d\mu\geq\int\varphi_n\d\mu=-\dfrac Mn\mu(E)+\int\psi_n\d\mu\geq-\dfrac Mn\mu(E)+\inf_{\psi\geq f}\int\psi\d\mu \]

因为上式对于一切 \(n\) 均成立,所以当 \(n\to\infty\) 时即得

\[\sup_{\varphi\leq f}\int\varphi\d\mu\geq\inf_{\psi\geq f}\int\psi\d\mu \]

例如,对于 Dirichlet 函数 \(1_\Q\),当测度为 Lebesgue 测度时,因为 \(\mu(\cur{x})=0\),所以 \(\mu(\Q)=0\),于是 \(\int1_\Q\d\mu=0\)。而在 R-S 积分中,其不可积。

下一步是继续证明其满足前面提到的三条性质。

第一条因为当 a.e. 非负时,可以取 \(\tilde E=\cur{\omega:f(\omega)<0}\),则 \(\mu(\tilde E)=0\)。然后取 \(\varphi=0\cdot 1_{E\setminus\tilde E}-M1_{\tilde E}\) 即可。

第二条易证:

\[\int af\d\mu=\sup_{\varphi\leq af}\int\varphi\d\mu=\sup_{a\varphi\leq af}\int a\varphi\d\mu=\sup_{\varphi\leq f}a\int\varphi\d\mu=a\int f\d\mu&(a>0) \\\int af\d\mu=\inf_{\psi\geq af}\int\psi\d\mu=\inf_{a\varphi\geq af}\int a\varphi\d\mu=\inf_{\varphi\leq f}a\int \varphi\d\mu=a\sup_{\varphi\leq f}\int\varphi\d\mu=a\int f\d\mu&(a<0) \\\int af\d\mu=\int 0\d\mu=0=a\int f\d\mu&(a=0) \]

第三条因为上界和下界都可以直接关于求和拆开来。


然后是 \(f\) 非负的场合。

定义

\[\int f\d\mu=\sup_{\mat{0\leq h\leq f\\h\text{ is bounded}\\\co{red}{\mu(\cur{\omega:h(\omega)>0})<\infty}}}\int h\d\mu \]

特别地,按照我们上述定义,有界函数是自动 imply 标红的第三条性质的。按照老师的说法,单独把它重复一遍是「为了强调」。

特别地,这里因为是取上界,所以自动蕴含了积分值为正无穷的可能性。

定义 \(f\) 在集合 \(E\) 上的积分

\[\int_E f\d\mu=\int f\cdot 1_E\d\mu \]

引理:对于 \(E_n\uparrow\Omega\)\(\mu(E_n)<\infty\),则有

\[\lim_{n\uparrow\infty}\int_{E_n}\min(f,n)\d\mu=\int f\d\mu \]

首先,因为对应的 \(\min(f,n)\cdot 1_{E_n}\) 确实是 bounded 函数,因此自然有 \(\leq\) 成立。

现在证明 \(\geq\)。对于原定义中的 \(h\),因为其有界 \(M\),则当 \(n\geq M\) 时,必有

\[\int_{E_n}\min(f,n)\d\mu\geq\int_{E_n}h\d\mu=\int h\d\mu-\int_{E_n^C}h\d\mu \]

\(\int_{E_n^C}h\d\mu\leq M\mu(E_n^c\cap\cur{h>0})\)。当 \(n\to\infty\) 时,因为 \(h\) 是固定的而 \(E_n\uparrow\Omega\),所以有其趋于 \(0\)。然后知

\[\lim_{n\uparrow\infty}\int_{E_n}\min(f,n)\d\mu\geq\int_{E_n}h\d\mu \]

因为上述分析中的 \(h\) 可取一切 \(0\leq h\leq f\) 的有界函数,所以即知 \(\geq\) 成立。

因此这也是另一种定义非负场合积分的方略。课本上和课上使用了神秘的 \(f\wedge n=\min(f,n)\) 的定义,我不是很能理解为什么。这似乎来自于 lattice theory。

进一步,其在 \(n\) 前面乘以常系数的场合仍然成立,即有

\[\lim_{n\uparrow\infty}\int_{E_n}f\wedge(an)\d\mu=\int f\d\mu \]

下一步是证明其三条性质。第一条非负显然。第二条要证明对于 \(a>0\)\(\int af\d\mu=a\int f\d\mu\),这个直接用引理定义即可:

\[\int af\d\mu=\lim_{n\uparrow\infty}\int_{E_n}(af)\wedge(an)\d\mu=\lim_{n\uparrow\infty}\int_{E_n}a(f\wedge n)\d\mu=a\int f\d\mu \]

第三条仍然使用引理,使用 \((f+g)\wedge(2n)1_{E_n}\geq (f\wedge n+g\wedge n)1_{E_n}\geq (f+g)\wedge n1_{E_n}\) 即可。


最后是一般的场合。显然可以拆成 \(f^+=f\vee 0,f^-=(-f)\vee 0\) 两个积分,然后因为 \(f=f^+-f^-\),所以定义 \(\int f\d\mu=\int f^+\d\mu-\int f^-\d\mu\)

但是注意到非负积分可以为正无穷,而我们无法处理两个无穷相减的场合,所以我们需要 \(\int|f|\d\mu<\infty\) 的场合才能定义。因此,\(\int f\d\mu\) 并非总是可定义。 满足 \(\int|f|\d\mu<\infty\) 的函数称为 可积函数 (integrable function)。

注意,在非负的场合,就算它的绝对值积分(也即其自身积分)是无穷,我们也可以定义它的积分(即为无穷)。

但一般的场合,只要它的绝对值积分是无穷,就算某一侧的积分非无穷因此 \(\int f^+\d\mu-\int f^-\d\mu\) 是良定义的,我们也不关心,所以仍然认为它不可积。


我们已经对一切 \(\sigma\)-有限测度定义了 \(\int f\d\mu\)。特别地,在 \(\mu\) 是 Lebesgue 测度而 \(\Omega\) 是规整的 \(\R\)\(\R^n\) 等时,其回到标准的「曲线/曲面下面积/体积」的实际意义。

Absolute Continuity and Radon-Nikodym Theorem

称一个测度 \(\nu\) 关于 (w.r.t.) 另一个测度 \(\mu\) 绝对连续 (absolute continuous),如果对于一切 \(A\in\s F\) 都有 \(\mu(A)=0\implies\nu(A)=0\),记作 \(\nu\ll\mu\)。换句话说,所有 \(\mu\)-零测集都是 \(\nu\)-零测集。

这里的绝对连续在前文中出现过一次(存在 PDF)。其是该绝对连续的特例:需要有 distribution 关于 Lebesgue 测度绝对连续。

Radon-Nikodym 定理:对于 \(\sigma\)-有限测度 \(\nu,\mu\),如果 \(\nu\ll\mu\),存在 \(g\geq0\) 使得 \(\forall E\in\s F\) 均有 \(\int_Eg\d\mu=\nu(E)\)。且如果存在另一个 \(h\),则 \(g=h\) \(\mu\)-a.e.(或称,\(g\) 关于 \(\mu\) 是唯一的,unique up to \(\mu\))。这个 \(g\)\(\s F\)-可测的,且 \(g\) 被称作 Radon-Nikodym 导数 \(g=\dfrac{\d\nu}{\d\mu}\)

证明被跳过了。

其一个特例如上文所说,\(\nu\) 为 distribution,\(\mu\) 为 Lebesgue 测度,\(g\) 则为 PDF。

当一个测度 \(\nu\) 关于 Lebesgue 测度绝对连续时,直接称其为 绝对连续。如果该测度是某个 r.v. 的 CDF,则该 r.v. 也被称作 绝对连续随机变量

另一方面,连续测度 的要求比较弱,只要对于一切 \(x\in\Omega\) 均有 \(\nu(\cur{x})=0\) 即可。Cantor 分布是典型的奇异连续分布,它不是绝对连续的。同理,如果该测度是某个 r.v. 的 CDF,则该 r.v. 也被称作连续随机变量。

现在来考虑 R-N 导数的一些性质。

  • 如果 \(\nu_1,\nu_2\ll\mu\),则 \(\nu_1+\nu_2\ll\mu\)
  • \(\dfrac{\d(\nu_1+\nu_2)}{\d\mu}=\dfrac{\d\nu_1}{\d\mu}+\dfrac{\d\nu_2}{\d\mu}\)
  • 对于 \(\nu\ll\mu\)\(f\geq0\),有 \(\int f\d\nu=\int f\dfrac{\d\nu}{\d\mu}\d\mu\)。这个公式在计算期望时非常有效。
  • 对于 \(\pi\ll\nu\ll\mu\),有 \(\dfrac{\d\pi}{\d\mu}=\dfrac{\d\pi}{\d\nu}\dfrac{\d\nu}{\d\mu}\)
  • 如果有 \(\nu\ll\mu\)\(\mu\ll\nu\),则 \(\dfrac{\d\mu}{\d\nu}=\left(\dfrac{\d\nu}{\d\mu}\right)^{-1}\)

证明同样被跳过了。

Convergence

称函数列 \(\cur{f_n}\) 逐点收敛 (pointwise converge) 至 \(f\),如果其在每个取值处均收敛至 \(f\) 的对应取值。

称之为 \(\mu\)-几乎处处收敛 (\(\mu\) a.e. converge) 至 \(f\),如果其不收敛的集合是 \(\mu\)-零测的。也记作 \(f_n\to f\) \(\mu\)-a.e.。

称之为 \(\mu\)-测度收敛 (\(f_n\to f\) in \(\mu\)-measure),如果对于一切 \(\eps>0\),有 \(\mu(\cur{w:|f_n(w)-f(w)|>\eps})\to0\)

逐点收敛和依测度收敛,二者没有必然的包含关系——存在满足任一者但不满足另一者的场合。

但是,有如下 Egorov 定理 的推论(不做证明):存在 \(E\) 使得如果 \(\mu(E)<\infty\) 且全体 \(f_n(E^C)=0\),则 \(f_n\to f\) \(\mu\)-a.e. 推出 \(f_n\to f\) in \(\mu\)-measure。

反例:考虑令 \(f_n=1_{[n,n+1]}\)。则 \(f_n\to0\) a.e.,但是取 \(\eps=\dfrac12\) 即可知其并不依测度收敛。

特别地,在 \(\cur{f_n}\) 是 r.v. 列 \(\cur{X_n}\) 的场合,\(f_n\to f\) a.e.,则称作 \(X_n\) 几乎必然收敛于 \(X\),即 \(X_n\to X\) almost surely。

另一方面,如果 \(f_n\to f\) in measure,则称作 \(X_n\) 依概率收敛于 \(X\),即 \(X_n\to X\) in probability。

因为概率测度有 \(\mu(\Omega)=1\),所以其满足 Egorov 定理,故 almost surely implies in probability。

有界收敛定理 (Bounded Convergence Theorem):若 \(f_n\) 的支撑集 \(E\) 满足 \(\mu(E)<\infty\),且 \(|f_n(x)|\leq M\) 并有 \(f_n\to f\) in \(\mu\)-measure,则有 \(\int f\d\mu=\lim_{n\to\infty}\int f_n\d\mu\)。换句话说,在函数列有界且依测度收敛时,积分和极限可以换序

对于 \(\eps>0\),定义 \(G_n=\cur{x:|f_n-f(x)|<\eps}\),然后定义 \(B_n=E\setminus G_n\),则

\[\left|\int f\d\mu-\int f_n\d\mu\right|\leq\int|f-f_n|\d\mu=\int_{G_n}|f-f_n|\d\mu+\int_{B_n}|f-f_n|\d\mu \\\leq\eps\mu(E)+2M\mu(B_n)\to0 \]

控制收敛定理 (Dominated Convergence Theorem):若 \(f_n\to f\) a.e. 且 \(|f_n|\leq g\)(即,\(|f_n|\)\(g\) 控制),且满足 \(\int g\d\mu<\infty\),则即可有 \(\int f_n\d\mu\to\int f\d\mu\)。换句话说,在几乎处处收敛时,只要被某个收敛的函数控制,积分和极限即可换序。这比前一个定理的有界条件更弱。

要证明之,需要以下 Fatou 引理:对于 \(f_n\geq0\),有

\[\liminf_{n\to\infty}\int f_n\d\mu\geq\int(\liminf_{n\to\infty}f_n)\d\mu \]

其中 \(\lim\inf\)下极限

  • 序列的下极限是所有收敛子列极限的最小值。其总是存在(可以为负无穷)。

    其存在另一种等价定义,即 \(\liminf_{n\to\infty}a_n=\lim_{n\to\infty}\inf_{m\geq n}a_m\)

    \(b_n=\inf_{m\geq n}a_m\)

    一方面,对于任何收敛子列 \(\cur{a_{i_k}}\) 都有 \(a_{i_k}\geq b_{i_k}\),于是知 \(\geq\) 方向成立。

    另一方面,根据下确界性质,存在 \(n_k\geq k\) 使得 \(b_k\leq a_{n_k}\leq b_k+\dfrac1k\)。直接令 \(k\to\infty\) 并夹逼即知 \(\leq\) 方向成立。

  • 函数的下极限是每个点处的下极限。

Fatou 引理给出了在 最弱条件 下,关于积分和极限换序能得到的结论。

证明:取 \(g_n(x)=\inf_{m\geq n}f_m(x)\),则有 \(f_n(x)\geq g_n(x)\),于是 \(\int f_n\d\mu\geq\int g_n\d\mu\)。于是令 \(g(x)=\lim_{n\to\infty}g_n(x)=\liminf_{n\to\infty}f_n\),则 \(\cur{g_n}\uparrow g\),且如果能证明 \(\liminf_{n\to\infty}\int g_n\d\mu\geq\int(\liminf_{n\to\infty}f_n)\d\mu=\int g\d\mu\),则 Fatou 引理自然得证。

取有限测度集列 \(E_m\uparrow\Omega\),然后对固定的 \(m\),取 \((g_n\wedge m)1_{E_m}\)。则因为对于一切 \(n'\geq n\) 都有 \(g_{n'}\geq (g_n\wedge m)1_{E_m}\),所以有 \(\liminf_{n\to\infty}\int g_n\d\mu\geq\int(g_n\wedge m)1_{E_m}\d\mu\)

现在先取 \(n\) 的极限。则因为 \((g_n\wedge m)1_{E_m}\) a.e. 收敛于 \((g\wedge m)1_{E_m}\),于是由 BCT 知两侧可同时求积分。

然后再取 \(m\) 的极限,则由非负函数的积分定义,最终得到

\[\lim_{m\to\infty}\lim_{n\to\infty}\int(g_n\wedge m)1_{E_m}\d\mu=\int g\d\mu \]

有了这个就能证明 DCT 了。

\(f_n+g\geq0\) 使用 Fatou 引理得到

\[\liminf_{n\to\infty}\int(f_n+g)\d\mu\geq\int(f+g)\d\mu \]

所以 \(g\) 仅仅是一个用来套 Fatou 的工具人,两边消掉即得

\[\liminf_{n\to\infty}\int f_n\d\mu\geq\int f\d\mu \]

同理对 \(-f_n+g\geq0\) 用 Fatou 得到

\[\limsup_{n\to\infty}\int f_n\d\mu\leq\int f\d\mu \]

两式结合即证毕。

此外还有一个 单调收敛定理 (Monotone Convergence Theorem):对于 \(f_n\geq0\)\(f_n\uparrow f\),则 \(\int f_n\d\mu\uparrow\int f\d\mu\)

由 Fatou 引理得到 \(\liminf_{n\to\infty}\int f_n\d\mu\geq\int f\d\mu\)。由 \(f_n\leq f\) 得到 \(\limsup\) 侧。

Expectation

定义一个随机变量的 期望

\[\E X=\int X(\omega)\d P(\omega) \]

但是这个式子在定义域 \(\Omega\) 奇形怪状时显然不好。于是我们更喜欢如下的 换元定理 (change of variable formula):

\[\E h(X)=\int h\circ X\d P=\int h\d(P\circ X^{-1}) \]

那么这里的 \(\mu=P\circ X^{-1}\) 就是我们的 PDF,其存在于可爱的定义域 \((\R,B(\R))\) 上。但是此处的 \(\mu\) 仍然不一定很可爱。

\(\mu\ll\lambda\) 其中 \(\lambda\) 是 Lebesgue 测度时,其可以进一步由 Radon-Nikodym 定理得到

\[\E h(X)=\int h\d\mu=\int h\dfrac{\d\mu}{\d\lambda}\d\lambda \]

而此处的 \(\dfrac{\d\mu}{\d\lambda}\) 就是 PDF \(p(x)\)。于是即得和蔼的

\[\E h(X)=\int h(x)p(x)\d x \]

形式。

Examples

Bernoulli r.v.:\(p(X=1)=p,p(X=0)=1-p\)

Poisson r.v. with parameter \(\lambda\)\(P(x=k)=\exp(-\lambda)\lambda^k/k!\)

Geometric distribution with success prob. \(p\in(0,1)\)\(P(X=k)=p(1-p)^{k-1}\)。即,其是 首次成功时,执行的实验数目。

Gaussian r.v.:\(\dfrac1{\sqrt{2\pi\sigma^2}}\exp\Big(-\dfrac{(x-\mu)^2}{2\sigma^2}\Big)\)。其作为中心极限定理的基石而在数据分析方面非常重要。

Multivariate Random Variable

我们也会想要有多元随机变量。首先考虑二元的场合。对于两个可测空间 \((X,\s A,\mu_1)\)\((Y,\s B,\mu_2)\),它们可以合成一个空间 \((\Omega=X\times Y,\s H=\sigma(\s A\times\s B))\)

定理:存在唯一的 \(\mu\) 满足 \(\mu(A\times B)=\mu_1(A)\mu_2(B)\)。一般将其记作 \(\mu_1\times\mu_2\)

归纳可简单得 \(n\) 元的场合下的定义。

Fubini 定理 说明积分何时能换序。具体而言,如果有 \(f(x,y)\geq0\)\(\int|f|\d\mu<\infty\),即有

\[\int\int f(x,y)\d\mu_2(y)\d\mu_1(x)=\int f\d\mu=\int\int f(x,y)\d\mu_1(x)\d\mu_2(y) \]

上述式子有意义,首先要保证对于固定的 \(x\),有 \(y\to f(x,y)\) 的函数是 \(\s B\)-可测的,然后有 \(x\to\int f(x,y)\d\mu_2\)\(\s A\)-可测的。

证明被跳过了!

Probabilty Theory

以上内容基本上是测度论的内容。现在终于回到我们忠诚的概率论了!

Independence

对于一个 r.v.,两个 事件 是独立的,如果 \(P(A\cap B)=P(A)P(B)\)

如果两个 r.v. 是独立的,则 \(\forall C,D\in\s B(\R)\),均有 \(P(X\in C,Y\in D)=P(X\in C)P(Y\in D)\)。这是独立事件的扩展:\(X\in C,Y\in D\) 本身都是事件。

如果两个 \(\sigma\)-field \(\s F,\s G\)(它们均是该概率空间定义 \(\sigma\)-field 的子集)是独立的,则 \(\forall A\in\s F,B\in\s G\),均有 \(A,B\) 独立。

定理:如果 \(X,Y\) 独立则 \(\sigma(X),\sigma(Y)\) 独立。反之,如果 \(\s F,\s G\) 独立且 \(X\in\s F,Y\in\s G\),则 \(X,Y\) 独立。

[!NOTE]

回忆:此处的 \(\sigma(X)\) 是满足 \(X\) 是 r.v. 的最小 \(\sigma\)-域。而 \(X\in\s F\) 意味着 \(X\) 关于 r.v. \(\s F\) 可测。\(\cur{X\in C}=X^{-1}(C)\)

对于 \(A\in\sigma(X)\),必然存在 \(C\in\s B(\R)\) 满足 \(A=X^{-1}(C)\)\(B\) 同理有 \(D\)。于是

\[P(A\cap B)=P(X\in C,Y\in D)=P(X\in C)P(Y\in D)=P(A)P(B) \]

反之,如果 \(X\in\s F,Y\in\s G\),则 \(X^{-1}(C)\in\s F,X^{-1}(D)\in\s G\)。因为 \(\s F,\s G\) 独立所以 \(\cur{X\in C},\cur{Y\in D}\) 独立。

定理:如果 \(A,B\) 独立,则 \(A^C,B\)\(A,B^C\)\(A^C,B^C\) 均独立。

\(P(A)P(B)+P(A^C)P(B)=(P(A)+P(A^C))P(B)=P(B)\)

定理:\(A,B\) 独立当且仅当 \(1_A\)\(1_B\) 独立。

对于任意 \(C,D\)\(\cur{1_A\in C}\) 均是 \(\varnothing,A,A^C,\Omega\) 之一,\(\cur{1_B\in D}\) 同理,于是一个个 check 过去即可。

现在进一步将定义扩展到有限多元场合。\(n\)\(\sigma\)-域 \(\s F_1,\dots,\s F_n\) 彼此独立,如果对于一切 \(A_i\in\s F_i\) 均有

\[P(\bigcap_{i=1}^nA_i)=\prod_{i=1}^nP(A_i) \]

\(n\) 个随机变量彼此独立,如果对于一切 \(B_i\in\s B(\R)\) 均有

\[P(\bigcap_{i=1}^n\cur{X_i\in B_i})=\prod_{i=1}^nP(\cur{X_i\in B_i}) \]

\(n\) 个事件彼此独立,如果对于一切 \(I\sube\cur{1,\dots,n}\) 均有

\[P(\bigcap_{i\in I}A_i)=\prod_{i\in I}P(A_i) \]

[!NOTE]

注意这个定义与前两个有所出入。但是假如 \(1_{A_i}\) 彼此独立,那么在 \(i\in I\) 上取 \(B_i=\cur{1}\),在 \(i\notin I\) 上取 \(B_i=\R\) 即知二者实际等价。

定理:如果 \(A_1,\dots,A_n\) 彼此独立,那么它们任意取反同样独立,且 \(1_{A_i}\) 彼此独立。

独立与 两两独立 (pairwise independent) 不同:后者更弱。因此我们有时会用 联合独立 (joint independent) 强调此处的独立并非 pairwise 的。

假如要扩展至无穷的场合。无限个 \(\sigma\)-域/r.v./事件是独立的,如果它们的任何有限子集都是独立的。


联合独立的充分条件:对于随机变量 \(X_1,\dots,X_n\),如果对于一切 \(x_1,\dots,x_n\in(-\infty,+\infty]\)注意此处可以取得正无穷),均有

\[P(X_1\leq x_1,\dots,X_n\leq x_n)=\prod_{i=1}^nP(X_i\leq x_i) \]

证明被跳过了。

定理:如果对于一切 \(1\leq i\leq n,1\leq j\leq m(i)\) 均有 \(X_{i,j}\) 彼此独立,那么对于可测映射 \(f_i:\R^{m(i)}\to\R\),有 \(f_i(X_{i,1},\dots,X_{i,m_i})\) 独立。

Joint Distribution

对于均为 \(\Omega\to\R\) 的 r.v. \(X,Y\),定义 \(w=(X,Y)\),则 \(w\) 引导一个 \(\Omega\to\R^2\) 的 distribution,即为 \((X,Y)\)联合分布 (joint distribution)。其可以进一步扩展至任意多变量的场合。

定义:当 \(X_1,\dots,X_n\) 彼此独立时,令 \(\mu_1,\dots,\mu_n\) 为其分布,则其联合分布即为 \(\prod\mu_i\)

此处的 \(\prod\mu_i\) 在 Fubini 中定义过:有 \(\mu_1\times\mu_2(A\times B)=\mu_1(A)\mu_2(B)\)

定理:对于独立的 \(X,Y\),令 \(\mu,\nu\) 分别为其分布,则函数 \(h:\R^2\to\R\) 如果满足非负或 \(\E|h(X,Y)|<\infty\),则有

\[\E[h(X,Y)]=\iint h\d\mu\d\nu \]

此外,若 \(h(x,y)=f(x)g(y)\),其中 \(f,g\)\(\R\to\R\) 的非负或绝对值期望有限函数,则有

\[\E[h(X,Y)]=\E[f(X)g(Y)]=\E[f(X)]\E[g(Y)] \]

证明使用 Fubini 即可。


定理:对于独立的 \(X,Y\),令 \(F(x)=P(X\leq x),G(y)=P(Y\leq y)\),则有

\[P(X+Y\leq z)=\int F(z-y)\d G(y) \]

其中 \(\d G(y)\) 就是指 \(G\) 对应的测度 \(\d\mu\)。其会对应生成卷积函数 \(F*G(z)\)

Conditional Distribution

这是测度论与计算测度论的根本分野。

定义 \(P(A\mid B)=\dfrac{P(A\cap B)}{P(B)}\)

离散的场合,定义 \(\E[X\mid Z=z_j]=\sum_{i=1}^nx_iP(X=x_i\mid Z=z_j)\)。因此 \(\E[X\mid Z]\) 其实是一个关于 \(Z\) 的函数,同时也是 \(Z\) 定义域上的一个随机变量:假如 \(Z\) 其实是 \(Z(w)\),那么即可定义 \(Y(w)=\E[X\mid Z=Z(w)]=h(Z(w))\)

定理:假如 \(Z\)\(\s G\) 上良定义,则 \(\E[X\mid Z]\) 也是良定义的。

定理:对于一切 \(G\in\sigma(Z)\),均有

\[\int_GY\d P=\int_G X\d P \]

首先因为是离散场合,所以只需要考虑 \(G=\cur{Z=z_j}\) 的场合,其它场合无非是多个单点的和,直接求和即可。

\[\int_G Y\d P=\int_Gh(Z(w))\d P(w) \\=h(z_j)P(Z=z_j) \\=\sum_{i=1}^nx_iP(X=x_i\mid Z=z_j) \\=\sum_{i=1}^n\int_{\cur{X=x_i,Z=z_j}}X(w)\d P(w) \\=\int_GX\d P \]

离散的场合可以进一步扩展至连续场合……吗?如果分布绝对连续,则处处均有 \(P(X=x,Z=z)=P(Z=z)=0\),因此其并非良定义。

当联合分布 \(f_{X,Z}(x,z)\) 绝对连续时,marginal distribution \(f_Z(z)\) 绝对连续,且 \(f_Z(z)=\int_{-\infty}^\infty f_{X,Z}(x,z)\d x\)

于是可以定义 conditional probability distribution \(f_{X\mid Z}(x\mid z)=\dfrac{f_{X,Z}(x,z)}{f_z(Z)}\)

这个定义是有意义的:有

\[P(X\in(x-\Delta x,x+\Delta x)\mid Z\in(z-\Delta z,z+\Delta z)) \\\approx\dfrac{f_{X,Z}(x,z)\cdot2\Delta x\cdot2\Delta z}{f_z(z)\cdot2\Delta z} \\\approx\int_{x-\Delta x}^{x+\Delta x}\dfrac{f_{X,Z}(x,z)}{f_Z(z)}\d\lambda \]

同时对于任何 \(B\sube\s B(\R^2)\),有

\[P((X,Z)\in B)=\int_Bf_{X\mid Z}(x\mid z)f_Z(z)\d\lambda^2 \]

然后可以定义条件期望

\[\E[X\mid Z=z]=\int xf_{X\mid Z}(x\mid z)\d\lambda \\=\lim_{\Delta z\to0}\E[X\mid Z\in(z-\Delta z,z+\Delta z)] \]

again,其是关于 \(z\) 的可测函数。定义 \(h(z)=\E[X\mid Z=z]\)\(Y=\E[X\mid Z]\),则仍然有

\[\int_G Y\d P=\int_Gh\circ Z\d P=\int_{z_G}h(z)f_Z(z)\d z \\=\int_{z_G}\int_{-\infty}^\infty xf_{x,z}(x,z)\d x\d z \\=\int_{(X,Z)\in(\R\times z_G)}xf_{X,Z}\d\lambda^2 \\=\int_{(x,z)^{-1}(\R\times z_G)}X\d P \]

其中 \(z_G=\cur{z:\exist w\in G\land z=Z(w)}\)

现在定义最后一个积分的积分域为 \(\tilde G\),则其满足 \(\tilde G=\cur{w:X(w)\in\R,Z(w)\in z_G}=\cur{w:Z(w)\in z_G}\)。而因为 \(G\in\sigma(Z)\),所以有 \(G=\tilde G\)!!!


还是来点 Kolmogrov 的严谨定义罢!!

对于随机变量 \(X,Z\) 且满足 \(\E|X|<\infty\),则有 \(Y=\E[X\mid Z]\),如果:

  • \(Y\) 是关于 \(z\) 的函数。
  • \(\E|Y|<\infty\)
  • 对于一切 \(G\in\sigma(Z)\),都有 \(\int_GY\d P=\int_GX\d P\)

这个 \(Y\) 的定义关于 \(P\) 是 a.s. 的。因此只能说是 a version of conditional expectation——它不是唯一的。

对于一个 \(A\) 以及某个特定取值 \(z\),可以定义 \(\mu_z(A)=P(X\in A\mid Z=z)=\E[1(x\in A)\mid Z]\)

  • \(A\) 固定时, \(\mu_z(A)\) 是刻画条件期望 \(P(1_A\mid Z=z)\) 的一个 version。
  • \(z\) 固定时,\(\mu_z\) a.s. 是一个 prob. measure。即,使得 \(\mu_z\) 不是 prob. measure 的 \(z\) 是零测的。

\(P(X\in A\mid z)=\int_Af(x\mid z)\d x\)

Laws of Large Number

有两种大数定律:强大数和弱大数。所以本节标题加了复数。

强大数:对于 \(X_1,\dots,X_n,\dots\) 的 i.i.d with \(P\) 的分布,令 \(X\) 为一个副本,则只要 \(\E X\) 存在(也即 \(\E|X|<\infty\)),则有 \(\dfrac1n\sum_{i=1}^nX_i\to\E X\) a.s.。

[!NOTE]

左侧的全体 \(X_i\) 可以看做是同一个大 \(\Omega\) 上的函数,因此它们的和仍然是 \(\Omega\) 的函数——i.i.d 只看值域上的分布,不看定义域上的形状。

右侧的 \(\E X\) 是一个常数,当然也可以被看做是分布 \(\E X1_\Omega\)

要证明它需要一车定理,包括 Borel-Cantelli Lemma,Kronecker Lemma,Khintechine-Kolmogrov Convergence Theorem 和 Kolmogrov's Maximal Inequality。

首先定义 infinitely often:对于可数的集合序列 \(A_1,\dots,A_n,\dots\sube\Omega\),定义 \(\limsup A_n=\lim_{m\to\infty}\bigcup_{n=m}^\infty A_n\),另一种定义是所有出现了无穷次的元素 \(w\)(也即,\(w\in A_n\) i.o.)构成的集合 \(S\)

假如 \(w\in S\),则其属于一切 \(B_m=\bigcup_{n=m}^\infty A_n\)。于是其属于上极限。

假如 \(w\notin S\),则其只属于 \(B_m\) 的一段前缀,于是其不属于上极限。

其也可直接记作 \(\cur{A_n\io}\)

Claim:\(X_n\to X\) a.s. 当且仅当 \(\forall\eps>0\)\(P(|X_n-X|>\eps\io=0)\)

首先可以定义相应的 \(A_n(\eps)=\cur{|X_n-X|>\eps}\)

\(X_n\to X\) 等价于:对于序列 \(\eps_m\to0\),有 \(\bigcup_{\eps_m}\limsup A_n(\eps_m)\) 是零测的。这是因为当 \(n\) 固定时,有 \(A_n(\eps_m)\) 不降,于是 \(\limsup A_n(\eps_m)\uparrow\bigcup_{\eps_m}\limsup A_n(\eps_m)\),则两边取 \(P\) 后仍然成立。

于是可以取

\[\sup_{\eps>0}P(\limsup A_n(\eps)) \]

\(\Omega_0\) 为不收敛的集合,则这两个集合相等——一方面,有 \(\limsup A_n(\eps)\sube\Omega_0\);另一方面,对于 \(w\in\Omega_0\),存在 \(\eps_0\) 使得存在任一多的 \(n\) 满足 \(w\in A_n(\eps_0)\)。于是 \(w\in\limsup A_n(\eps_0)\)

B-C Lemma:如果 \(\sum_{n=1}^\infty P(A_n)<\infty\),则 \(P(A_n\io)=0\)。证明很简单:令 \(N=\sum 1_{A_k}\),则 Fubini 换序即知 \(\E N=\sum P(A_k)<\infty\)。于是 \(N<\infty\) a.s.。


Kronecker Lemma:对于确定性数列 \(0<a_1<\dots<a_n<\dots\)\(a_n\uparrow\infty\),若 \(\sum_{i=1}^n\dfrac{x_i}{a_i}\to s<\infty\),则 \(\sum_{j=1}^n\dfrac{x_j}{a_n}\to0\)

定义 \(b_n=\sum_{i=1}^n\dfrac{x_i}{a_i}\),且令 \(a_0=b_0=0\),则 \(x_n=a_n(b_n-b_{n-1})\)。则

\[\sum_{j=1}^n\dfrac{x_j}{a_n}=\dfrac1{a_n}\sum_{j=1}^na_j(b_j-b_{j-1}) \\=\dfrac1{a_n}\left(\sum_{j=1}^na_jb_j-\sum_{j=1}^na_jb_{j-1}\right) \\=b_n-\dfrac1{a_n}\sum_{j=1}^nb_{j-1}(a_j-a_{j-1}) \]

而我们知道 \(b_n\to s\),因此存在 \(N\) 使得一切 \(n>N\) 都有 \(|b_n-s|<\eps\),则

\[\sum_{j=1}^n\dfrac{x_j}{a_n}=\co{lightblue}{b_n}-\co{pink}{\dfrac1{a_n}\sum_{j=1}^{N-1}b_{j-1}(a_j-a_{j-1}})-\co{cyan}{\dfrac1{a_n}\sum_{i=N}^n(a_j-a_{j-1})s}-\co{violet}{\dfrac1{a_n}\sum_{i=N}^n(a_j-a_{j-1})(b_{j-1}-s)} \]

蓝色的第一项 \(\to s\)。粉色的第二项后面是常数,前面的 \(\dfrac1{a_n}\to0\),因此也 \(\to0\)。青色的第三项等于 \(\dfrac1{a_n}(a_n-a_{N-1})s\to s\)。最后紫色第四项,其绝对值不超过 \(\dfrac1{a_n}(a_n-a_{N-1})\eps\to\eps\),于是整个式子 \(\to\eps\),而 \(\eps\) 可以任意小,于是其 \(\to0\)

Kolmogorov's Maximal Inequality:对于独立、零期望且有限方差的 \(X_1,\dots,X_n\),定义 \(S_j=\sum_{i=1}^jX_j\),则对于一切 \(\eps\),有

\[P(\max_{1\leq j\leq n}|S_j|\geq\eps)\leq\dfrac{\var(S_n)}{\eps^2} \]

首先,易验证独立的 \(X,Y\)\(\var(X+Y)=\var(X)+\var(Y)\)。于是 \(\var(S_n)=\sum_{i=1}^n\var(X_n)\)

考虑定义 \(T=\min\cur{j:j\leq n\wedge|S_j|\geq\eps}\)(这里其为一个值域为整数的随机变量。假如不存在这样的 \(j\),可以令 \(T=\infty\)。)

\(1_{\cur{T\geq j}}=1_{\cur{T\leq j-1}^C}=1_{\cur{|S_i|<\eps\mid1\leq i\leq j-1}}\),于是其与 \(X_j,X_{j+1},\dots\) 彼此独立。

于是

\[P(\max_{1\leq j\leq n}|S_j|\geq\eps)=P(T\leq n)=\E[1_\cur{T\leq n}] \\\leq\E[\dfrac{S_T^2}{\eps^2}1_\cur{T\leq n}] \\\leq\eps^{-2}\E[S_{T\wedge n}^2] \\=\eps^{-2}\E\left|\sum_{i=1}^{T\wedge n}X_j\right|^2 \\=\eps^{-2}\E\left|\sum_{i=1}^nX_j1_\cur{T\geq j}\right|^2 \\=\co{lightblue}{\eps^{-2}\E[\sum_{j=1}^nX_j^21_\cur{T\geq j}]}+\co{pink}{2\eps^{-2}\sum_{i<j}\E[X_iX_j1_\cur{T\geq j}]} \]

其中粉色项,由上述结论,有 \(X_j\)\(X_i1_\cur{T\geq j}\) 独立。因为 \(\E[X_j]=0\),所以粉色项直接为零。

而蓝色项,同样由独立性可以把 \(\E[1_\cur{T\geq j}]\) 摘出来然后放成 \(1\)。于是知上式

\[\leq\eps^{-2}\sum_{j=1}^n\E X_j^2=\eps^{-2}\var(S_n) \]

Khintchine-Kolmogorov Convergence Theorem:对于独立、零期望、方差和有限的随机变量列,\(\sum_{i=1}^nX_n(w)\) a.s. 收敛到一个有界值(这个值可以在不同的 \(w\) 处不同,但不收敛的位置是零测的)。

定义 \(S_n=\sum_{i=1}^nX_i\),则对从 \(M\) 开始的部分序列应用 Kolmogorov 最大值定理,有

\[P(\max_{M\leq m\leq N}|S_m-S_M|\geq\eps)\leq\eps^{-2}\sum_{n=M+1}^N\var(X_n) \]

取极限知

\[P(\sup_{m\geq M}|S_m-S_M|\geq\eps)\leq\eps^{-2}\sum_{n=M+1}^\infty\var(X_n) \]

现在再让 \(M\to\infty\),则右式会趋于 \(0\),于是有

\[\lim_{M\to\infty}P(\sup_{m\geq M}|S_m-S_M|\geq\eps)=0 \]

定义 \(W_M=\sup_{m,n\geq M}|S_m-S_n|\),则 \(\sup_{m\geq M}|S_m-S_M|<\eps\) 推出 \(W_M<2\eps\),于是有

\[P(W_M\geq2\eps)\leq P(\sup_{m\geq M}|S_m-S_M|\geq\eps)\to0 \]

\(P(W_M\geq\eps)\to0\)

定义 \(A_M(\eps)=\cur{W_M>\eps}\),则对于 \(n>m\)\(A_n(\eps)\sube A_m(\eps)\),故

\[\bigcup_{n\geq M}A_n(\eps)=A_M(\eps) \\P\left(\bigcup_{n\geq M}A_n(\eps)\right)\to0 \\P(\limsup A_n(\eps))=0 \]

于是 \(W_M\to0\) a.s.,则 \(S_n\) a.s. 是 Cauchy 列,Cauchy 列必然收敛。

Strong Law of Large Number:对于两两独立、同分布、期望有限的 \(X_1,\dots,X_n,\dots\),令它们各自的期望为 \(\mu\),则令 \(S_n=X_1+\dots+X_n\),则 \(S_n/n\to\mu\) a.s.。

为方便,假设 \(\E X_i=0\),此时有

\[X_i=\co{pink}{X_i1_\cur{|X_i|\leq i}}-\E[X_i1_\cur{|X_i|\leq i}]+\co{lightblue}{X_i1_\cur{|X_i|>i}}-\E[X_i1_\cur{|X_i|>i}] \]

对于粉色部分,定义 \(Y_i=X_i1_\cur{|X_i|\leq i}\),我们尝试证明 \(\dfrac1n\sum_{i=1}^nY_i\to0\) a.s.。

\[\sum_{i=1}^\infty\dfrac{\var(Y_i)}{i^2}\leq\sum_{i=1}^\infty\dfrac1{i^2}\E[X_1^21_\cur{|X_1|\leq i}] \\=\E[X_1^2\sum_{n=1}^\infty\dfrac1{n^2}1_{|X_1|\leq n}] \\=\E[X_1^2\sum_{n\geq|X_1|\vee1}\dfrac1{n^2}] \]

又有 \(\dfrac1{n^2}\leq\dfrac2{n(n+1)}=2(\dfrac1n-\dfrac1{n+1})\)。于是

\[\begin{matrix} \leq\E[X_1^22\sum_{n\geq|X_1|\vee1}\dfrac1n-\dfrac1{n+1}] \\\leq2\E[X_1^2\dfrac1{|X_1|\vee1}] \\\leq2\E[X_1^2(\dfrac1{|X_1|}\wedge1)] \\\leq2\E[|X_1|1_\cur{|X_1|>1}]+2<\infty \end{matrix} \]

此时即可使用 K-K 定理得到 \(\sum_{i=1}^n\dfrac{Y_i}i\) a.s. 收敛。进一步用 Kronecker Lemma 可知 \(\sum_{i=1}^n\dfrac{Y_i}n\to 0\) a.s.

对于蓝色部分,我们同样希望证明

\[\dfrac1n\sum_{i=1}^nX_i1_\cur{|X_i|>i}\to0 \]

然后另一项用 DCT 即知其 \(\to0\)还是需要证明的,后文有证。

我们希望证明 \(\sum_{i=1}^nP(|X_i|>i)<\infty\) 然后使用 B-C Lemma。

\[\sum_{i=1}^\infty P(|X_i|>i)\leq\int_0^\infty P(|X_1|>t)\d t=\E|X_1|<\infty \]

引理:对于 \(Y\geq0\)\(p>0\),有

\[\int_0^\infty py^{p-1}P(Y\geq y)\d y \\=\int_0^\infty\int py^{p-1}1_\cur{Y>y}\d P\d y \\=\int\int_0^Y py^{p-1}\d y\d P \\=\int Y^p\d P=\E[Y^P] \]

……于是确实有 \(\int_0^\infty P(|X_1|>t)\d t=\E|X_1|\)

最后,我们定义 \(a_i=\E[X_11_\cur{|X_1|>i}]\),则希望证明 \(a_i\to0\),并进一步可知 \(\dfrac1n\sum a_i\to0\)

定义 \(f_i=X_11_\cur{|X_1|>i}\),则已证 \(f_i\to0\) a.s 且 \(|f_i(w)|<|X_1(w)|\),于是 DCT 即可!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/958037.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

足式机器人适应多地形的方案

基于视觉的感知运动 两阶段方法:流程:首先在完全可观测的马尔可夫决策过程(MDP) 中,利用特权信息训练一个强大的教师策略。然后,通过知识蒸馏,将教师策略的知识迁移给一个仅能使用真实传感器数据的学生策略。优…

使用vLLM实测3090和4090的大模型推理性能

使用`vLLM`测试下大模型并发推理场景下3090和4090两张显卡的性能表现,看下4090是否在高并发场景下具备更高的扩展性。 3090显卡和4090显卡在模型推理过程中的显存和GPU使用率都比较接近,1~8并发度场景下,3090和409…

CF1700F Puzzle

考虑如果是 \(1 \times n\) 怎么做。 显然是前缀和的差的绝对值的和,因为每次移动改变一位前缀和。 考虑上下交换的本质是什么,就是给第一行减 \(1\),第二行加 \(1\),反过来同理,那么在前缀和异号时显然交换是不劣…

Redis高可用与高并发探险之旅:从单机到集群的完美进化【第三部分】

可以结合之前的文章融合起来一起理解学习:分布式缓存-Redis集群在一个名为"数据大陆"的世界里,Redis王国正面临着前所未有的挑战。随着用户流量的激增,单机Redis服务器已经不堪重负。今天,就让我们跟随年…

UE:论运行时动画录制的关键-正确获取骨骼数据与保存

© mengzhishanghun 原创文章 首发于 博客园 禁止未经授权转载核心问题 在 UE5.4 中实现运行时动画录制,最关键的两个问题是:如何获取正确的骨骼数据 - 避免崩溃和数据不匹配如何正确保存 AnimSequence - 使用…

a-menu 当设置折叠状态如何穿透悬浮菜单样式

效果antReset.css .ant-menu-submenu .ant-menu-submenu-popup .ant-menu .ant-menu-light {border: 1px solid #173808 !important; }/* 直接针对 popup 整体背景 */ .ant-menu-submenu-popup {background-color: #17…

attention论文及Transformer工作原理概述

attention论文及Transformer工作原理概述Posted on 2025-11-06 19:09 wsg_blog 阅读(0) 评论(0) 收藏 举报attention论文及Transformer工作原理概述

kamailio+rtpengine对sdp的处理

概述 使用kamailio+rtpengine的过程中,默认会使用rtpengine处理sdp信息,同时又需要对sdp信息定制,就需要对cfg配置流程中做特殊处理才能实现。 环境 CentOS 7.9 kamailio:5.8.3-bullseye docker rtpengine:mr13.1.1…

软工团队项目第一次作业

软工团队项目第一次作业作业所属课程 https://edu.cnblogs.com/campus/fzu/202501SoftwareEngineering/作业要求 https://edu.cnblogs.com/campus/fzu/202501SoftwareEngineering/homework/13573作业的目标 团队展示+选…

低代码权限管理安全合规指南:守住数据安全的 “最后一道防线”

随着数据安全法、个人信息保护法的落地,企业对系统权限管理的合规要求越来越高。低代码平台作为企业数字化的核心工具,其权限管理不仅要保障数据不泄露、操作不越权,还要满足行业监管和法律法规的要求。 很多企业误…

2025-11-06

2025-11-06CF补题 Problem - 515C - Codeforces(1400)(string+a little factorial) 这题妙在把各个数字阶乘转换成仅含有2 3 5 7 数字,然后直接求解 要对每个数的阶乘进行换算[!tip]9 is 7!*8*9=7!*3!*3!*2!8 is …

低代码权限管理常见场景解决方案:精准适配不同业务需求

低代码平台的核心优势是 “快速适配多元业务”,而权限管理作为保障业务安全的关键,必须跟着场景走。很多企业在设置权限时,容易陷入 “一刀切” 的误区 —— 用一套权限配置应对所有业务场景,结果要么出现 “权限不…

不适用模型的简易ai交互页面

不适用模型的简易ai交互页面 一.形式import streamlit as st st.title("测试标题") st.divider() prompt=st.chat_input("请输入你的问题") if prompt:#如果问题不为空才输出答案st.chat_message(…

关于waybar状态栏颜文字乱码问题

也就差个字体的事: sudo pacman -S nerd-fonts

自己的火印

/*** Modified by Noivelist,* Luogu:https://www.luogu.com.cn/user/700335* Marsoj:http://marsoj.com/user/252* “倘若梦境醒来,执念破去,我们再谈救赎”* Working on Project: [ ]**/

P10277 [USACO24OPEN] Bessies Interview S 题解

P10277 [USACO24OPEN] Bessies Interview S 题解P10277 [USACO24OPEN] Bessies Interview S 题解 题目传送门 我的博客 思路 首先这道题第一问非常好做。只需要按照题目描述的那样模拟即可。即用优先队列存每个奶牛的面…

基于AIGC的图表狐深度评测:自然语言生成专业级统计图表的高效的技术实现

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

AI 时代的数据库进化论 —— 从向量到混合检索

AI 时代的数据库进化论 —— 从向量到混合检索说明:本文只是关于数据库发展趋势的个人见解,没有特别深入的向量和混合检索的实现原理,属于很浅显易懂的科普类文章,几乎不需要任何背景知识,大家可以放心阅读。 关于…