我正在Python中创建一个朴素的贝叶斯分类器,它将能够基于一天的一些天气数据来猜测它是哪个月。
目前,均值和标准差用于对月份进行分类,但是我认为增加偏度和峰度可能有助于提高准确性。
我目前正在使用scipy.stats.norm.cdf来计算机会,但是我似乎找不到在Python中考虑偏斜度和峰度的任何cdf函数。
我觉得我可能无法正确理解偏度和峰度。偏度和峰度对cdf函数有影响,因此我希望将它们作为参数给出。
我对偏斜度,峰度和cdf函数的理解存在根本性的错误吗?如果没有,那么在哪里可以找到将所有这些参数都考虑在内的cdf函数的实现?
最佳答案
您使用(scipy.stats.norm)且通常用于在朴素贝叶斯中建模一维条件分布的正态分布仅由两个参数-mean
和std
明确定义。指定偏斜度/峰度是没有意义的,因为它们对于您的分布是恒定的(特别是峰度为3)。
您正在考虑的可能是Pearson分布,用于分布更多的时刻(平均,标准,偏度和峰度)。
http://docs.scipy.org/doc/scipy-0.15.1/reference/generated/scipy.stats.pearson3.html