[ ]

大数定律与中心极限定理

大数定律讨论的是,在什么条件下,随机变量序列的观测值的算术平均依概率收敛到其均值的算术平均。

中心极限定理讨论的是,在什么条件下,独立随机变量和的分布函数会收敛于正态分布。

由于大数定律和中心极限定理涉及到随机变量序列的收敛性,所以第一部分引入两种收敛性的概念;而第二部分特征函数的引入则是为了简化随机变量序列极限的计算;第三部分介绍大数定律;第四部分介绍中心极限定理。

一、随机变量序列的两种收敛性

随机变量序列主要有两种收敛性:依概率收敛按分布收敛。大数定理是一种依概率收敛,而中心极限定理将涉及按分布收敛。

依概率收敛

定义 1 设 ${X_n}$ 为一随机变量序列,$X$ 为一随机变量,如果对任意的 $\varepsilon>0$,有

则称序列 ${X_n}$ 依概率收敛于 $X$,记作 ​$X_n\overset{P}{\longrightarrow} X$.

随机变量序列依概率收敛在四则运算下依然成立,即:如果 $X_n\overset{P}{\longrightarrow} X​$,$Y_n\overset{P}{\longrightarrow} Y​$,则

按分布收敛(弱收敛)

定义 2 设随机变量 $X,X_1,X_2,\dots$ 的分布函数分别为 $F(x),F_1(x),F_2(x),\dots$. 若对 $F(x)$ 的任一连续点 $x$,都有

则称 ${F_n(x)}$ 弱收敛于 $F(x)​$,记作

也称 ${X_n}$ 按分布收敛于 $X$,记作

性质

依概率收敛是一种比按分布收敛更强的收敛性。即有以下定理:

当极限随机变量为常数(服从退化分布)时,按分布收敛和依概率收敛是等价的。即有以下定理:

二、特征函数

特征函数本质上是随机变量概率密度函数的傅立叶变换,它是处理许多概率论问题的有力工具,例如:

定义

定义 3 设 $X$ 是一个随机变量,称

为 $X$ 的特征函数

由于 $\vert {\rm e}^{ {\rm i}tX}\vert=1$,故 $\mathbb{E}[{\rm e}^{ {\rm i}tX}]$ 总是存在1,即任一随机变量的特征函数总是存在的。(对比一下数学期望:并不是所有随机变量都有数学期望。)

与随机变量的数学期望、方差、各阶矩一样,特征函数只依赖于随机变量的分布,分布相同则特征函数也相同,所以也常常被称为某分布的特征函数

性质与定理

  1. $\vert \varphi(t) \vert \le \varphi(0)=1​$

  2. $\varphi(-t)=\overline{\varphi(t)}$ (共轭)

  3. 独立随机变量和的特征函数为每个随机变量的特征函数的积,即设 $X$ 和 $Y$ 相互独立,则

  4. 若 $\mathbb{E}[X^l]$ 存在,则 $X$ 的特征函数 $\varphi(t)$ 可 $l$ 次求导,并且对 $1\le k \le l$,有

    上式提供了一个计算随机变量各阶原点矩的方法。特别地,可以用下式去求数学期望和方差:

  5. 唯一性定理:随机变量的分布函数由其特征函数唯一决定。同时有逆转公式。当 $X$ 是连续随机变量时,有更强的结果:特征函数是密度函数的傅立叶变换,而密度函数是特征函数的傅立叶变换。

  6. 分布函数序列 ${F_n(x)}$ 弱收敛于分布函数 $F(x)$ 的充要条件是:${F_n(x)}$ 的特征函数序列 ${\varphi_n(t)}$ 收敛于 $F(x)$ 的特征函数 $\varphi(t)$.

三、大数定律

介绍大数定律之前,先引入一个概率论中非常重要的不等式:切比雪夫 (Chebyshev) 不等式

切比雪夫不等式

定理(Chebyshev 不等式) 设随机变量 $X$ 的数学期望和方差都存在,则的任意常数 $\varepsilon>0$,有

证明:设 $X$ 是一个连续随机变量,其密度函数为 $p(x)$。记 $\mathbb{E}[X]=a$,有

这个定理也可以用 Markov 不等式证明。详情参考我的这篇文章 XX。

在概率论中,事件 ${\left\vert X-\mathbb{E}[X]\right\vert\ge\varepsilon}$ 被称为大偏差,其概率 $P(\left\vert X-\mathbb{E}[X]\right\vert\ge\varepsilon)$ 被称为大偏差发生概率。切比雪夫不等式给出了大偏差发生概率的上界,这个上界与方差成正比,方差越大上界也越大。

伯努利大数定律

大数定律有多种形式,其中伯努利大数定律最为简单。它解释了“概率是频率的稳定值”中的“稳定”的含义。

如果在一次伯努利试验中事件 $A​$ 发生的概率为 $p​$,记 $S_n​$ 为 $n​$ 重伯努利试验中事件 $A​$ 发生的次数,则 $S_n​$ 服从二项分布 $b(n,p)​$,且 $\frac{S_n}{n}​$ 被称为事件 $A​$ 的频率。易知

由常识知道,当试验次数很大时($n\to\infty​$),频率 $\frac{S_n}{n}​$ 接近 $p​$。但这个“接近”并不意味着数列 ${\frac{S_n}{n}}​$ 收敛于 $p​$。因为,对任意 $\varepsilon>0​$,不可能找到一个足够大的 $N​$ 使得对所有 $n>N​$ 有

因为总有可能出现 $\frac{S_n}{n}=1$ (或 0)的极端情况,而 $p$ 又不是 1 或 0,使得上式不成立。因此,数列的极限无法描述这种“接近”。

因此,我们只能借助之前介绍的依概率收敛,即我们可以得到 $\frac{S_n}{n}\overset{P}{\longrightarrow}p​$.

定理(伯努利大数定律) 设 $S_n​$ 为 $n​$ 重伯努利试验中事件 $A​$ 发生的次数,在一次伯努利试验中事件 $A​$ 发生的概率为 $p​$,则对任意的 $\varepsilon>0​$,有

证明:对任意的 $\varepsilon>0​$,有

因此

伯努利大数定律提供了用频率来估计概率的理论依据,在计算机中很常用的蒙特卡洛算法就是这个思想。

大数定律的一般形式

定义(大数定律) 设有一随机变量序列 ${X_n}​$,假如它具有如下形式:对任意的 $\varepsilon>0​$,有

则称随机变量序列 ${X_n}$ 服从大数定律

现在的问题是,在什么条件下随机变量序列 ${X_n}$ 服从大数定律?这些不同的条件定义了不同的大数定律。

切比雪夫大数定律

定理(切比雪夫大数定律) 设 ${X_n}​$ 为一列两两不相关的随机变量序列,若每个 $X_i​$ 的方差都存在,并且有共同的上界,即 ${\rm Var}(X_i)\le c,i=1,2,\dots​$,则 ${X_n}​$ 服从大数定理。

证明:由于 ${X_n}$ 两两不相关,故

再由切比雪夫不等式得到:对任意的 $\varepsilon>0$,有

于是当 $n\to\infty$ 时有

由于伯努利大数定律仅要求随机变量序列独立同分布,且方差有限,因此也符合切比雪夫大数定律。所以伯努利大数定律是切比雪夫大数定律的一种特例

马尔可夫大数定律

在刚才的证明中,我们注意到,只要有

则大数定理就能成立。这个条件被称为马尔可夫条件

定理(马尔可夫大数定律) 对随机变量序列 ${X_n}$ ,若马尔可夫条件成立,则 ${X_n}$ 服从大数定律。

证明:和上面切比雪夫大数定律证明一样。

马尔可夫大数定律的重要性在于:它不再假设同分布、独立性、不相关等条件。所以实际上切比雪夫大数定律又是马尔可夫大数定律的一种特例

辛钦大数定律

众所周知:若一个随机变量的方差存在,则其数学期望必定存在;反之则不然,若一个随机变量的数学期望存在,则其方差不一定存在。之前讲到的大数定律都假设随机变量序列 ${X_n}$ 的方差存在,而辛钦大数定律去掉了这一假设,仅设每个 $X_i$ 的数学期望存在,但同时又要求 ${X_n}$ 为独立同分布的随机变量序列。伯努利大数定律也是辛钦大数定律的一个特例

定理(辛钦大数定理) 设 ${X_n}$ 为一独立同分布的随机变量序列,若 $X_i$ 的数学期望存在,则 ${X_n}$ 服从大数定律。

证明:TODO

辛钦大数定律提供了求随机变量数学期望 $\mathbb{E}[X]$ 的近似值的方法——当 $n$ 足够大时,把观察平均值作为 $\mathbb{E}[X]$ 的近似值。

四、中心极限定理

TODO

  1. $X$ 的数学期望存在的充要条件是:$\int_{-\infty}^\infty\vert x \vert p(x)dx$ 收敛。