|
|
|
@ -17,7 +17,12 @@
|
|
|
|
|
|
|
|
|
|
### 熵、条件熵、信息增益
|
|
|
|
|
|
|
|
|
|
在信息论和概率统计中呢,为了表示某个随机变量的不确定性,就借用了热力学的一个概念叫**熵**。如果假设 $$X$$ 是一个有限个取值的离散型随机变量的话,很显然它的概率分布或者分布律就是这样的:$$P(X=x_i)=p_i, i=1,2,...,n$$。
|
|
|
|
|
在信息论和概率统计中呢,为了表示某个随机变量的不确定性,就借用了热力学的一个概念叫**熵**。如果假设 $$X$$ 是一个有限个取值的离散型随机变量的话,很显然它的概率分布或者分布律就是这样的:
|
|
|
|
|
|
|
|
|
|
<center>
|
|
|
|
|
$$P(X=x_i)=p_i, i=1,2,...,n$$
|
|
|
|
|
</center>
|
|
|
|
|
<br>
|
|
|
|
|
|
|
|
|
|
有了概率分布后,则这个随机变量 $$X$$ 的熵的计算公式就是($$PS$$:这里的 $$log$$ 是以 $$2$$ 为底):$$H(X)=-\sum_{i=1}^np_ilogp_i$$
|
|
|
|
|
|
|
|
|
@ -25,9 +30,12 @@
|
|
|
|
|
|
|
|
|
|
在实际情况下,要研究的随机变量基本上都是多随机变量的情况,所以假设有随便量`(X,Y)`,那么它的联合概率分布是这样的:
|
|
|
|
|
|
|
|
|
|
<center>
|
|
|
|
|
$$
|
|
|
|
|
P(X=x_i, Y=y_j)=p_{ij}, i=1,2,...,n; j=1,2,...,m
|
|
|
|
|
$$
|
|
|
|
|
</center>
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
那如果我想知道在我事件 $$X$$ 发生的前提下,事件 $$Y$$ 发生的熵是多少的话,这种熵叫它**条件熵**。条件熵 $$H(Y|X)$$ 表示随机变量 $$X$$ 的条件下随机变量 $$Y$$ 的不确定性。条件熵的计算公式是这样的:$$H(Y|X)=\sum^n_{i=1}p_iH(Y|X=x_i)$$。
|
|
|
|
|
|
|
|
|
|