我正在尝试对某些财务数据使用scikit的因子分析来查找要在模型中使用的beta。 FA具有称为n_components和公差的参数。我很难理解这些变量如何影响结果。我已经阅读了文档并进行了研究,但是在查找任何相关信息时遇到了麻烦。我是机器学习的新手,不是统计向导。有人可以解释一下这些因素如何影响算法的发展吗?
最佳答案
来自sklearn.decomposition.FactorAnalysis
n_components:int |没有
潜在空间的维数,是变换后获得的X的分量数。如果为None,则将n_components设置为要素数量。
tol:浮动
EM算法的停止公差。
我假设您的财务数据是具有(n_samples, n_features)
形状的矩阵。因子分析使用期望最大化(EM)优化器来找到最佳的高斯分布,该分布可以在n_tolerance
的公差内准确地对数据建模。用简单的术语n_components
是高斯分布的维数。
可以用高斯分布建模的数据有时在一维中的变化可以忽略不计。考虑一个沿其深度挤压成类似于椭圆形的椭圆体。如果原始数据是椭球,则需要n_components = 2
,以便可以使用最简单的模型对数据进行建模。
关于python - 因子分析Scikit,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/45291969/