第一步：信息量

一个事件 x 发生的概率 p(x) 越大，那么它一旦发生时的信息量 I（x） 就越大。

第二步：熵

交叉熵损失函数以及二分类任务(机器学习)-LMLPHP

交叉熵损失函数以及二分类任务(机器学习)-LMLPHP

交叉熵损失函数以及二分类任务(机器学习)-LMLPHP

评估标签值和预测值之间的差距，由于数据总体分布的熵值确定，因而可直接用交叉熵代替KL散度作为分类任务的损失函数。

交叉熵损失函数（单样本、多样本）分别表示如下，其中m代表样本个数，n代表分类个数：

交叉熵损失函数以及二分类任务(机器学习)-LMLPHP

二分类任务的损失函数可表示如下，易见预测输出越接近实际输出，损失函数值越小，训练结果越准确，如下图：

交叉熵损失函数以及二分类任务(机器学习)-LMLPHP

假设学会了某门课程的标签值为1，没有学会的标签值为0。建立一个预测器，对一个特定的学员，根据出勤率、课堂表现、作业情况、学习能力等来预测其学会该课程的概率。

对于学员甲，预测其学会的概率为0.6，而实际上该学员通过了考试，所以，学员甲的交叉熵损失函数值是：

交叉熵损失函数以及二分类任务(机器学习)-LMLPHP

𝑙𝑜𝑠𝑠1=−【1×ln0.6+0×ln0.4】=0.51

对于学员乙，预测其学会的概率为0.7，而实际上该学员也通过了考试。所以，学员乙的交叉熵损失函数值是：

𝑙𝑜𝑠𝑠2=−【1×ln0.7+0×ln0.3】=0.36

预测值越接近真实标签值，交叉熵损失函数值越小，反向传播的力度越小。