我正在使用具有输入特征(继承树的深度,子代数,方法数)的不同项目数据集,其中这些特征在每个不同项目中的每个类都有值。
我读过许多论文说,神经网络或任何其他模型都不能在不同分布的数据集上运行

我的问题是:
1.具有不同分布的数据集的含义是什么(单个数据集具有多个样本,每个样本对应于该项目中的一个类)
2.为什么NN或任何算法不能在两个不同分布的数据集上工作

提前致谢。

最佳答案

制定统计学习探针时,最常用的假设之一是样本是IID,这意味着您的样本分布相同,因此所有样本都应来自相同的分布。当您说有两个不同的数据集时,这意味着该假设不成立,并且大多数理论保证不再成立。现在,也许您的问题是“数据分布”是什么意思,这就是x分别是特征和y标签的联合定律p(x,y)。因此,两个数据集具有不同的分布,意味着p_ {1}(x,y)!= p_ {2}(x,y)

关于machine-learning - 2个具有不同分布的数据集的含义,为什么神经网络不能一起使用它们?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/59704758/

10-12 16:42
查看更多