[ 统计学习  ]

MLE/MAP 与经验风险、结构风险

李航的《统计学习方法》一书的第一章概论中有下面两句话,我当时看的时候没有理解,于是自己推导了一下。

当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价极大似然估计。

首先复习极大似然估计 (MLE)。给定一组采样自分布 $P_\theta(X)$ 的独立同分布的观测数据 $x_1,x_2, \dots, x_n$,想要估计分布中的参数 $\theta$。首先得到这组观测发生的对数似然 $\ell$:

为了使这组观测发生的可能性最大,则 $\theta​$ 的极大似然估计值为:


证明:假设模型为条件概率分布 $P_\boldsymbol{\theta}(Y\mid X)$。给定采样自此分布的一个训练集:

则它的对数似然 $\ell$ 为:

则 $\boldsymbol{\theta}$ 的估计值为:

其中 $L(y_i,P(y_i\mid x_i))=-\log P_\boldsymbol{\theta}(y_i\mid x_i)​$ 就是标准的对数损失函数。所以 MLE 在这里等价于最小化经验风险 $R_{\mathrm{emp}} \blacksquare​$

当模型是条件概率分布,损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价最大后验概率估计。

首先复习最大后验概率估计 (MAP)。由于 MAP 涉及两个概率分布,所以这里使用不同的记号。记

是 $X$ 的概率密度函数,则

是 $\theta$ 的似然函数。现在假设 $\theta$ 的先验分布 $g$ 存在,则由贝叶斯定理,我们可以计算 $\theta$ 的后验分布:

其中 $\Theta$ 是 $g$ 的定义域。则 $\theta$ 的估计值为:

对比 MLE:

所以 MAP 只是增加了一个先验概率分布的因子 $g(\theta )​$。

注 1:MLE 实际上只是 MAP 的一个特殊情形——MLE 是参数的先验概率为均匀分布1时的 MAP。

注 2:我认为 $f(x\mid\theta )$ 和 $f(x;\theta )$ 实际上语义相同,可以互换。


证明:假设模型为条件概率分布 $P_\boldsymbol{\theta}(Y\mid X)$。给定采样自此分布的一个训练集:

则 $\boldsymbol{\theta}​$ 的最大后验概率估计为:

假设 $\boldsymbol{\theta}​$ 具有先验分布 $\exp{-\lambda N\parallel\boldsymbol{\theta}\parallel_2^2}​$,则上式等于

所以 MLE 在这里等价于最小化经验风险 $R_{\mathrm{srm}} \blacksquare$