信息论基础学习二(条件熵、互信息)

联合熵(joint entropy)

联合熵等于由联合事件发生概率计算出的熵。

\[H(X, Y) = E_{X,Y}[-{\rm log}p(x,y)] = -\sum_{x,y}p(x,y){\rm log}p(x,y)\]

条件熵(conditional entropy)

系统有个随机变量X,Y,当给定条件Y=y时,p(X|Y=y)的熵为

\[{\rm H}(X|Y=y) = {\rm H}_{[X|Y]}[-{\rm log}P(x|y)] = -\sum_{x∈X}p(x|y){\rm log}p(x|y)\]

条件熵定义为上面的熵对Y分布的期望

\[{\rm H}(X) = {\rm E}_{Y}{\rm H}[(X|y)] = -\sum_{y∈Y}p(y)\sum_{x∈X}p(x|y){\rm log}p(x|y) = \sum_{x,y}p(x,y){\rm log}\frac{p(y)}{p(x,y)} \]

条件熵的含义为:如果知道了Y,X的熵是多少。注意与“知道Y等于一个具体的y后,X的熵”,这两种表述的区分。前者是后者在Y上的总体情况。

条件熵的另一种解读为,知道了Y之后,X的不确定性是多少。 将条件熵变形为:

\[H(X|Y) = H(X, Y) – H(Y)\]

可以理解为:“X、Y都不知道时的不确定性”减去“Y的不确定性”等于“知道Y后X的不确定性”。

互信息(mutual information)

首先了解pointwise mutual information,它的定义为:

\[{\rm pmi}(x;y) = {\rm log}_{2}\frac{p(x,y)}{p(x)p(y)} = {\rm log}_{2}\frac{p(x|y)}{p(x)} = {\rm log}_{2}\frac{p(y|x)}{p(y)} \]

含义为比较两个结果同时发生的概率与两个结果各自发生概率的乘积(即假设两个事件独立,它们同时发生的概率)。pointwise互信息具有对称性。当其为0时表示两个结果是独立的。当其大于0,表示两个结果有正向关联,即一个发生会导致另一个更容易发生。小于0时表示有负向关联,一个发生会导致另一个更不容易发生。它的上下界为:

\[-\infty ≤ {\rm pmi}(x;y) ≤ {\rm min} [-{\rm log}p(x), -{\rm log}p(y)]\]

互信息是pointwise 互信息在所有结果上的期望

\[I(X;Y) = E_{X,Y}[SI(x,y)] = \sum_{x,y}p(x,y){\rm log}\frac{p(x,y)}{p(x)p(y)}\]

从定义的形式上可以看出,互信息还是P(X, Y)和P(X)*P(Y)的KL散度

\[I(X;Y) = KL(P_{(X,Y)}||P(X)\cdot P(Y))\]

互信息本质上描述了X和Y的相关性。表示通过知道一个变量的结果,可以减少的关于另一个变量的不确定性。如果两个变量完全独立,那么互信息为0,知道一个变量对于另一变量的不确定性完全没有帮助。如果两个变量完全相关,即一个变量完全决定了另一个变量,那么互信息就是其中一个变量的熵。

互信息具有对称性;但与point mutual information不同,互信息具有非负性。

变形式

\[\begin{split}
{\rm I}(X;Y) &= {\rm H}(X) – {\rm H}(X|Y)
\\ &= {\rm H}(Y) – {\rm H}(Y|X)
\\ &= {\rm H}(X) + {\rm H}(Y) – {\rm H}(X,Y)
\\ &= {\rm H}(X,Y) – {\rm H}(X|Y) – {\rm H}(Y|X)
\end{split}\]

从前两个等式可以直观看出,互信息表示知道一个变量的结果,减少的关于另一个变量的不确定性。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注