首先,我们需要熟悉信息论中熵的概念。熵度量了事物的不确定性,越不确定的事物,它的熵就越大。具体的,随机变量X的熵的表达式如下:
<math xmlns="http://www.w3.org/1998/Math/MathML" display="block"> <mi>H</mi> <mo stretchy="false">(</mo> <mi>X</mi> <mo stretchy="false">)</mo> <mo>=</mo> <mo>−<!-- − --></mo> <munderover> <mo movablelimits="false">∑<!-- ∑ --></mo> <mrow class="MJX-TeXAtom-ORD"> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow class="MJX-TeXAtom-ORD"> <mi>n</mi> </mrow> </munderover> <msub> <mi>p</mi> <mi>i</mi> </msub> <mi>l</mi> <mi>o</mi> <mi>g</mi> <msub> <mi>p</mi> <mi>i</mi> </msub> </math>