我最近开始使用tsfresh
库从时间序列数据中提取特征。
我可以用几行代码来获得功能包,这很酷,但是我对select_features
方法背后的逻辑有疑问。我查看了官方文档并在Google上进行了搜索,但找不到用于该算法的算法。我想知道它是如何工作的,这样我就可以决定在tsfresh
中的数据处理之后在特征选择阶段要做什么。
最佳答案
根据他们的文档中的that page,他们要做的是:
他们提取了一整套功能
他们分别测试不同功能的重要性(在有监督的设置下,所以测试类似于“此功能是否对预测输出有用吗?”),并使用称为Benjamini-Yekutieli的程序保留最重要的功能。
他们提供的参考资料应引起关注:
[1]克里斯·M·坎普·里尔A.W.和Feindt,M.(2016年)。适用于工业大数据应用程序的分布式和并行时间序列特征提取。 ArXiv电子打印:1610.07717 URL:http://adsabs.harvard.edu/abs/2016arXiv161007717C
[2] Benjamini,Y.和Yekutieli,D.(2001)。依赖项下多重测试中错误发现率的控制。统计年鉴,1165-1188年
其中[1]是描述tsfresh
的论文,[2]是多重测试程序(上面称为Benjamini-Yekutieli程序)的参考。
关于python - tsfresh select_features方法背后的算法,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/58192180/