Closed. This question needs to be more focused。它当前不接受答案。
想改善这个问题吗?更新问题,使其仅通过editing this post专注于一个问题。
2年前关闭。
我正在研究将时间序列分为三类的深度学习分类器(Keras和Python)。我正在使用的损失函数是标准的分类交叉熵。除此之外,我还具有在同一模型中正在学习的注意力图。
我希望此注意力图尽可能小,所以我正在使用正则化器。问题来了:如何设置正确的正则化参数?我想要的是网络首先达到其最大分类精度,然后开始最小化强度注意图。因此,我在没有正则化器的情况下训练了我的模型,而第二次在正则化器开启的情况下训练了模型。但是,如果正则化参数(lambda)太高,则网络将完全失去准确性,只会使注意力最小化;而如果正则化参数太小,则网络仅关心分类错误,即使在精度已经是最高的。
是否存在将分类交叉熵与正则化器结合起来的更明智的方法?也许某些事物考虑了类别交叉熵随时间的变化,并且如果没有下降(例如N次迭代),那么它只会考虑正则化函数?
谢谢
想改善这个问题吗?更新问题,使其仅通过editing this post专注于一个问题。
2年前关闭。
我正在研究将时间序列分为三类的深度学习分类器(Keras和Python)。我正在使用的损失函数是标准的分类交叉熵。除此之外,我还具有在同一模型中正在学习的注意力图。
我希望此注意力图尽可能小,所以我正在使用正则化器。问题来了:如何设置正确的正则化参数?我想要的是网络首先达到其最大分类精度,然后开始最小化强度注意图。因此,我在没有正则化器的情况下训练了我的模型,而第二次在正则化器开启的情况下训练了模型。但是,如果正则化参数(lambda)太高,则网络将完全失去准确性,只会使注意力最小化;而如果正则化参数太小,则网络仅关心分类错误,即使在精度已经是最高的。
是否存在将分类交叉熵与正则化器结合起来的更明智的方法?也许某些事物考虑了类别交叉熵随时间的变化,并且如果没有下降(例如N次迭代),那么它只会考虑正则化函数?
谢谢
最佳答案
正则化是解决过度拟合的一种方法。因此,您应该了解模型是否过拟合。一种简单的方法:您可以比较f1分数用于训练和测试。如果火车的f1分数高而测试的f1分数低,则看来您过拟合-因此您需要添加一些正则化。
关于machine-learning - 如何在分类损失和正则化器之间取得适当的平衡? ,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/52588072/
10-12 22:11