交叉熵、KL 散度 | 定义与相互关系
1 KL 散度
对于离散概率分布
\(P\)
和
\(Q\)
,KL 散度定义为:
\[\text{KL}(P \| Q) = -E_{x\sim P}\log P(x)-\log Q(x)
\\
=\sum_{\mathbf{x}} P(\mathbf{x}) \log \frac{P(\mathbf{x})}{Q(\mathbf{x})}
\]
\\
=\sum_{\mathbf{x}} P(\mathbf{x}) \log \frac{P(\mathbf{x})}{Q(\mathbf{x})}
\]
对于连续概率分布,定义为:
\[\text{KL}(P \| Q) = \int p(\mathbf{x}) \log \frac{p(\mathbf{x})}{q(\mathbf{x})} d\mathbf{x}
\]
\]
其中,
\(p(\mathbf{x})\)
是
\(P\)
的概率密度函数,
\(q(\mathbf{x})\)
是
\(Q\)
的概率密度函数。
KL 散度的性质:
- 非负性
:KL 散度总是非负的,
\(\text{KL}(P \| Q) \geq 0\)
。 - 不对称性
:KL 散度不是对称的,即
\(\text{KL}(P \| Q) \neq \text{KL}(Q \| P)\)
。 - 零点
:当
\(P\)
和
\(Q\)
完全相同时,
\(\text{KL}(P \| Q) = 0\)
。 - 不满足三角不等式
:KL 散度不满足传统意义上的三角不等式。
2 交叉熵
交叉熵(cross-entropy)和 KL 散度联系密切,也可以用来衡量两个分布的差异。
对于离散概率分布
\(P\)
和
\(Q\)
,交叉熵定义为:
\[H(P,Q)=-E_{x\sim P}\log Q(x)=-\sum P(x_i)\log Q(x_i)
\]
\]
对于连续概率分布,定义为:
\[H(P,Q) = -\int p(\mathbf{x}) \log q(\mathbf{x}) d\mathbf{x}
\]
\]
可以看出,
\(H(P,Q)=H(P)+D_\text{KL}(P \| Q)\)
,其中
\(H(P)\)
是 P 的熵。
性质:
- 非负性;
- 和 KL 散度相同,交叉熵也不具备对称性,即
\(H(P,Q)\neq H(Q,P)\)
; - 对同一个分布求交叉熵,等于对其求熵。