我试图了解深度学习的基础知识,最后通过deeplearning4j进行了一些阅读。但是,我并没有真正找到答案:培训绩效如何随培训数据量而缩放?

显然,成本函数始终取决于所有训练数据,因为它只是对每个输入的平方误差求和。因此,我猜在每个优化步骤中,都必须考虑所有数据点。我的意思是deeplearning4j具有数据集迭代器和INDArray,数据可以在任何地方存在,因此(我认为)不限制训练数据的数量。仍然,这不是意味着训练数据的数量与梯度下降内每步的计算时间直接相关吗?

最佳答案

DL4J使用迭代器。 Keras使用发电机。仍然是相同的想法-您的数据成批进入,并用于SGD。因此,小批量至关重要,而不是您拥有的全部数据量。

关于tensorflow - 深度学习的基本思想,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/58892403/

10-12 16:37