信息论——连续随机变量的熵和互信息
如何将离散随机变量的这些概念推广到连续随机变量?
使用黎曼积分,我们可以得到:
\[ \begin{align} H(X) &= -\sum_{x} p(x)\Delta x \log p(x) \Delta x\\ &= -\sum_{x}p(x)\log p(x)\Delta x - -\sum_{x}p(x)\log \Delta x\Delta x \end{align} \]
上式中,最后一项是趋于负无穷的。
这意味着连续随机变量包含的信息是无穷的。但是无穷的是无法研究的,因此香农重新给了一个微分熵的定义,它在数学上不够严格,但是在实际上却非常有用。
\[ h(X) = \int _{-\infty }^{+\infty} p(x)\log p(x) dx \]
可以看到它在形式上与离散形式的熵是非常相似的。
同时也有联合熵: \[ h(X,Y) = -\int p(x,y)\log p(x,y) dxdy \]
条件熵: \[ h(X|Y) = -\iint p(x,y) \log p(x|y) dxdy = -\int p(y) \int p(x|y) \log p(x|y) dx dy \]
不等式关系: $ h(X,Y) = h(X) + h(Y|X) = h(Y) + h(X|Y) $
$ h(X|Y) h(X), h(Y|X) h(Y) $
$ h(X,Y)h(X) + h(Y) $
这些不等式都是存在的,与离散形式一致,但是要注意的是h(X)不一定是非负的了。
例如: \[ X:p(x) = \left \{ \begin{array}{c} \frac 1 {b-a} , a \leq x \leq b;\\ 0, otherwise; \end{array} \right. \]
那么它的微分熵实际上等于\(\log(b-a)\).当\(b-a<1\)的时候,这个熵是小于0的。
高斯分布的微分熵
高斯分布概率密度如下:
\(X:p(x) = \frac{1}{\sqrt {2 \pi \sigma} } exp [-\frac{(x-m)^2}{2\sigma ^2}]\)
而它的微分熵为\(h(x) = \frac 1 2 \log 2 \pi e \sigma^2\).
这个需要记住。当然只要带进定义就可以推算出来的。值得注意的是,它的微分熵和m(期望)是无关的
给定m和\(\sigma\)的情况下,当连续变量服从高斯分布的时候,微分熵最大。
互信息
\(I(X;Y) = \iint p(x,y) \log \frac{p(x,y)}{p(x)p(y)}dxdy\)
可以直接使用黎曼积分得到,与离散的情况也非常一致。