第一步:信息量
一个事件 x 发生的概率 p(x) 越大,那么它一旦发生时的信息量 I(x) 就越大。
𝐼𝑥 = -ln p(x)
第二步:熵
第三步:相对熵/KL散度
第四步:交叉熵
第五步:交叉熵损失函数
评估标签值和预测值之间的差距,由于数据总体分布的熵值确定,因而可直接用交叉熵代替KL散度作为分类任务的损失函数。
交叉熵损失函数(单样本、多样本)分别表示如下,其中m代表样本个数,n代表分类个数:
二分类任务的损失函数可表示如下,易见预测输出越接近实际输出,损失函数值越小,训练结果越准确,如下图:
第六步: 二分类任务
假设学会了某门课程的标签值为1,没有学会的标签值为0。建立一个预测器,对一个特定的学员,根据出勤率、课堂表现、作业情况、学习能力等来预测其学会该课程的概率。
对于学员甲,预测其学会的概率为0.6,而实际上该学员通过了考试,所以,学员甲的交叉熵损失函数值是:
𝑙𝑜𝑠𝑠1=−【1×ln0.6+0×ln0.4】=0.51
对于学员乙,预测其学会的概率为0.7,而实际上该学员也通过了考试。所以,学员乙的交叉熵损失函数值是:
𝑙𝑜𝑠𝑠2=−【1×ln0.7+0×ln0.3】=0.36
预测值越接近真实标签值,交叉熵损失函数值越小,反向传播的力度越小。