我刚刚阅读了 Inception-v3 paper 及其作者发布的训练代码。我发现什么时候做 RMSProp
优化,作者使用 epsilon=1 。但是,据我所知,人们通常使用 1e-10 或一些较小的值,Tensorflow 将默认值设置为 1e-10。

所以我的问题是 epsilon 将如何影响优化?为什么我们需要 epsilon=1 ?
谢谢!

最佳答案

通过这个 github issue 我找到了一个解释这个值的帖子:https://groups.google.com/a/tensorflow.org/d/msg/discuss/1JDPbuHN39w/AVXdYeaDCAAJ

在这篇文章中,inception v3 的一位作者解释说,他们需要如此高的 epsilon 来使用异步 SGD 来训练它,而较低的值实际上可能(更好)适用于同步 SGD。

关于tensorflow - Inception-v3 使用 RMSProp epsilon=1,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/36172716/

10-12 19:35