无论是动态时间规整还是时间序列的某种欧几里德k均值聚类,始终(几乎?)始终需要考虑数据的不规则间距,数据长度不均和/或数据丢失。
在意识到每个问题都需要考虑自身因素的同时,是否存在一般原因,为什么不能用样条对每个时间序列进行预处理以内插(或最小限度外推)数据来改善这些问题?
最佳答案
我不明白为什么不这样。我认为主要要考虑的是您正在做的假设。至少对我而言,这种程序想到的假设是
样条曲线可以充分描述(平滑)每个时间序列,并捕获它们之间的差异。
聚类过程的输入描述了样条之间的真实差异,因此也描述了时间序列。
聚类过程的输入可以是估计的样条函数或样条系数。当然,估计系数将更易于使用,但是您需要确保它们之间的差异确实代表样条函数中的差异。这可能归结为样条的基函数的正交性,但是我不确定是否存在理论来支持它。