数学——Unbiased Estimation

在很久之前学习概率论的时候呢,有这么一个比较奇怪的地方,方差的无偏估计: \[ \sigma^2 = \frac{1}{n-1}\sum_{i=1}^n(X_i - \overline X)^2 \]

\(\overline X = \frac 1 n X_i\),这里无偏估计是\(\frac{1}{n-1}\)总感觉有点反直觉。这篇文章就是想介绍一下无偏估计,以及这个\((n-1)\)是从何而来的。 无偏估计的定义是这样:如果\(\hat t\)\(t\)的一个无偏估计,那么$E[t] =t \(.其实从通俗意义上来理解,就是以\)t\(有偏差,但是这个偏差是以\)t$为中心的。可以想象一个打靶的过程,你实际打的地方就是你瞄准的地方的无偏估计,前提是你可能打上打左打右打下等等。如果你瞄准的就不是靶心,那么你打的地方就不是靶心的无偏估计了。

现在来说明一些比较简单的无偏估计,它是我们推导的前提。

假如\(X_1,X_2,...,X_n\)是对X的独立随机采样,那么,\(\mu\)是X的均值,\(\sigma^2\)是X的方差。 \[ \begin{equation} E[X_i] = \mu \end{equation} \] \[ \begin{equation} E[\overline X] = \mu \end{equation} \] 上式中\[\overline X = \frac{1}{n} \sum_{i=1}^n X_i\]. \[ \begin{equation} E[\frac 1 n \sum_{i=1}^n (X_i - \mu)^2] = \sigma^2 \end{equation} \]

上面的式子前两个都不难理解,我们可以证明一下(3): \[ \begin{aligned} E[\frac 1 n \sum_{i=1}^n (X_i - \mu)^2] &= \frac{1}{n}\sum_{i=1}^nE[(X_i - \mu)^2]\\ &= \frac{1}{n}\sum_{i=1}^n E[X_i^2 - 2X_i\mu + \mu^2]\\ &= \frac{1}{n}\sum_{i=1}^n E[X^2 - 2X\mu + \mu^2]\\ &= \frac{1}{n}\sum_{i=1}^n E[(X - \mu)^2]\\ &= E[(X - \mu)^2] =\sigma^2 \end{aligned} \]

但是实际中,我们也往往无法得到\(\mu\)的值。想象一下,如果需要统计全世界人的平均身高,你要统计60亿人的身高才能得到精确的\(\mu\),如果有个人死掉了,有个人出生了,\(\mu\)又变了。实际中根本不会这么做。我们一般会根据\(\overline X\)来估计\(\mu\)。因此对于方差的估计也是用\(\overline X\)来完成的。这时候就出现了诡异的式子了: \[ \begin{equation} E[\frac{1}{n-1} \sum_{i=1}^n (X_i - \overline X)^2] = \sigma^2 \end{equation} \]

也就是说,$S^2 = _{i=1}^n (X_i - X)^2 \(才是\)^2$的无偏估计。

为什么?

先给大家一个直观的理解。首先,我们知道\(\sum_{i=1}^n (X_i - y)^2\)这个式子,在\(y = \overline X\)时候取得最大值。如果你不知道这个,很好证明,之前数据学习一篇文章中也提到过k-means clustering.

但是,我们得到的$X \(与\)$多少是有些偏差的,这意味着: \[ \sum_{i=1}^n (X_i - \overline X)^2 \leq \sum_{i=1}^n (X_i - \mu)^2 \] 也就是,我们如果这样估计: \[ \frac{1}{n} \sum_{i=1}^n (X_i - \overline X)^2 \]

结果是偏小的。

但是具体要增加多少才能达到无偏估计呢?下面开始推导: \[ \begin{aligned} E[\sum_{i=1}^n (X_i - \overline X)^2] &=E[\sum_{i=1}^n(X_i - \mu -(\overline X - \mu))^2]\\ &= E[\sum_{i=1}^n ((X_i - \mu)^2 - 2(X_i - \mu)(\overline X - \mu) + (\overline X - \mu)^2)]\\ &= E[\sum_{i=1}^n (X_i - \mu)^2 - 2(\overline X - \mu)\sum_{i=1}^n(X_i - \mu) + n(\overline X - \mu)^2 ]\\ &= E[\sum_{i=1}^n (X_i - \mu)^2 - 2(\overline X - \mu)(n\overline X - n\mu) + n(\overline X - \mu)^2 ]\\ &= E[\sum_{i=1}^n (X_i - \mu)^2 - n(\overline X - \mu)^2 ]\\ &= n\sigma^2 - nE[(\overline X - \mu)^2 ] \end{aligned} \]

现在我们想要弄明白的是:\(E[(\overline X - \mu)^2 ] = ?\) \[ \begin{aligned} E[(\overline X - \mu)^2 ] &= E[(\frac 1 n \sum_{i=1}^n X_i - \mu)^2]\\ &= E[(\frac 1 n (\sum_{i=1}^n X_i - n\mu))^2]\\ &=E[\frac{1} {n^2} (\sum_{i=1}^n (X_i - \mu))^2]\\ &= \frac{1}{n^2}E[\sum_{i=1}^n (X_i-\mu)^2 - 2\sum_{i\ne j}(X_i - \mu)(X_j - \mu)]\\ &= \frac{1}{n^2}(E[\sum_{i=1}^n (X_i-\mu)^2] - 2\sum_{i\ne j}E[(X_i - \mu)(X_j - \mu)])\\ &= \frac{1}{n^2}(E[\sum_{i=1}^n (X_i-\mu)^2] - 2\sum_{i\ne j}E[(X_i - \mu)]E[(X_j - \mu)])\\ &= \frac{1}{n^2}(E[\sum_{i=1}^n (X_i-\mu)^2])\\ &= \frac 1 n \sigma^2 \end{aligned} \]

上式中倒数第一步由(3)式得到,倒数第三步是因为我们采样是独立的。

所以我们得到: \[ E[\sum_{i=1}^n (X_i - \overline X)^2] = (n-1)\sigma^2 \]

这也就证明了,对于方差的无偏估计是\(S^2\),其中: \[ S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i - \overline X)^2 \]

下面我们将这个拓展到多维度变量的协方差矩阵。多维度变量\(X \in \mathbb{R}^n\)协方差矩阵的定义为: \[ Cov(X) \triangleq E[(X-\mu)(X-\mu)^T] \]

现在假设有m个采样,而这些采样的平均值为\(\hat \mu\).

现在我们证明\(\hat C\)\(\Sigma = Cov(X)\)的无偏估计。其中: \[ \hat C = \frac{1}{m-1}E[\sum_{i=1}^m(X_i - \hat \mu)(X_i - \hat \mu)^T]. \] 实际上证明是大同小异的,幸运的是矩阵的多数运算都和标量非常相似。 \[ \begin{aligned} E[\hat C]&= \frac{1}{m-1}E[\sum_{i=1}^m(X_i - \hat \mu)(X_i - \hat \mu)^T]\\ &=\frac{1}{m-1}\sum_{i=1}^mE[(X_i - \hat \mu)(X_i - \hat \mu)^T]\\ &=\frac{1}{m-1}\sum_{i=1}^mE[(X_i - \mu + \mu - \hat \mu)(X_i - \mu + \mu - \hat \mu)^T]\\ &= \frac{1}{m-1}\sum_{i=1}^m E[(X_i - \mu)(X_i - \mu)^T + 2 (X_i - \mu)(\mu - \hat \mu)^T + (\mu - \hat \mu)(\mu - \hat \mu)^T]\\ &= \frac{1}{m-1}\left(\sum_{i=1}^m E[(X_i - \mu)(X_i - \mu)^T] + \sum_{i=1}^m E[2 (X_i - \mu)(\mu - \hat \mu)^T + (\mu - \hat \mu)(\mu - \hat \mu)^T]\right)\\ &= \frac{1}{m-1} (m\Sigma + E[\sum_{i=1}^m 2(X_i - \mu)(\mu - \hat \mu)^T + m(\mu - \hat \mu)(\mu - \hat \mu)^T])\\ &= \frac{1}{m-1} (m\Sigma + E[2m(\hat\mu - \mu)(\mu - \hat \mu)^T + m(\mu - \hat \mu)(\mu - \hat \mu)^T])\\ &= \frac{1}{m-1}(m \Sigma - mE[(\hat \mu - \mu)(\hat \mu - \mu)^T])\\ \end{aligned} \]

而其中: \[ \begin{aligned} E[(\hat \mu - \mu)(\hat \mu - \mu)^T] &= E[(\frac{1}{m}\sum_{i=1}^m X_i - \mu)(\frac{1}{m}\sum_{i=1}^mX_i - \mu)^T]\\ &= \frac{1}{m^2}E[(\sum_{i=1}^m(X_i - \mu))(\sum_{i=1}^m(X_i - \mu))^T]\\ &=\frac{1}{m^2} E[\sum_{i=1}^m (X_i - \mu)(X_i - \mu)^T + 2\sum_{i\ne j}(X_i - \mu)(X_j - \mu )]\\ &=\frac{1}{m^2}(m\Sigma + 2\sum_{i\ne j} E[X_i - \mu] E[X_j-\mu])\\ &=\frac{1}{m^2}(m\Sigma + 0)\\ &= \frac{1}{m}\Sigma \end{aligned} \]

所以我们得到: \[E[\hat C] = \frac{1}{m-1}(m-1)\Sigma = \Sigma.\]