我正在针对具有不同特征的三个时间序列数据集进行实验,其格式如下。
0.086206438,10
0.086425551,12
0.089227066,20
0.089262508,24
0.089744425,30
0.090036815,40
0.090054172,28
0.090377569,28
0.090514071,28
0.090762872,28
0.090912691,27
第一列是
timestamp
。出于可复制性原因,我共享数据here。在第2列中,我想读取当前行并将其与上一行的值进行比较。如果更大,我会继续比较。如果当前值小于上一行的值,我想将当前值(较小)除以上一个值(较大)。因此,以下是代码:import numpy as np
import matplotlib.pyplot as plt
protocols = {}
types = {"data1": "data1.csv", "data2": "data2.csv", "data3": "data3.csv"}
for protname, fname in types.items():
col_time,col_window = np.loadtxt(fname,delimiter=',').T
trailing_window = col_window[:-1] # "past" values at a given index
leading_window = col_window[1:] # "current values at a given index
decreasing_inds = np.where(leading_window < trailing_window)[0]
quotient = leading_window[decreasing_inds]/trailing_window[decreasing_inds]
quotient_times = col_time[decreasing_inds]
protocols[protname] = {
"col_time": col_time,
"col_window": col_window,
"quotient_times": quotient_times,
"quotient": quotient,
}
plt.figure(); plt.clf()
plt.plot(quotient_times,quotient, ".", label=protname, color="blue")
plt.ylim(0, 1.0001)
plt.title(protname)
plt.xlabel("time")
plt.ylabel("quotient")
plt.legend()
plt.show()
这产生了以下三点-我分享的每个dataset之一。
从上面基于上面给出的代码的图中的点可以看出,
data1
是非常一致的,其值大约为1,data2
将具有两个商(其值将集中在0.5或0.8左右),并且这些值data3
的值集中在两个值附近(约0.5或0.7)。这样,给定一个新的数据点(带有quotient
和quotient_times
),我想通过构建堆叠这两个变换特征cluster
和quotient
的每个数据集来知道它属于哪个quotient_times
。我正在尝试使用KMeans
聚类,如下所示from sklearn.cluster import KMeans
k_means = KMeans(n_clusters=3, random_state=0)
k_means.fit(quotient)
但这给我一个错误:
ValueError: n_samples=1 should be >= n_clusters=3
。我们如何解决这个错误?更新:samlpe商数据=
array([ 0.7 , 0.7 , 0.4973262 , 0.7008547 , 0.71287129, 0.704 , 0.49723757, 0.49723757, 0.70676692, 0.5 , 0.5 , 0.70754717, 0.5 , 0.49723757, 0.70322581, 0.5 , 0.49723757, 0.49723757, 0.5 , 0.49723757])
最佳答案
照原样,您的quotient
变量现在是一个样本。在这里,我得到了不同的错误消息,可能是由于Python / scikit-learn版本不同,但是本质是相同的:
import numpy as np
quotient = np.array([ 0.7 , 0.7 , 0.4973262 , 0.7008547 , 0.71287129, 0.704 , 0.49723757, 0.49723757, 0.70676692, 0.5 , 0.5 , 0.70754717, 0.5 , 0.49723757, 0.70322581, 0.5 , 0.49723757, 0.49723757, 0.5 , 0.49723757])
quotient.shape
# (20,)
from sklearn.cluster import KMeans
k_means = KMeans(n_clusters=3, random_state=0)
k_means.fit(quotient)
这给出了以下错误:
ValueError: Expected 2D array, got 1D array instead:
array=[0.7 0.7 0.4973262 0.7008547 0.71287129 0.704
0.49723757 0.49723757 0.70676692 0.5 0.5 0.70754717
0.5 0.49723757 0.70322581 0.5 0.49723757 0.49723757
0.5 0.49723757].
Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.
尽管措辞不同,但与您的措辞没有什么不同-本质上,它表示您的数据看起来像一个样本。
遵循第一个建议(即考虑
quotient
包含单个功能(列)即可解决此问题:k_means.fit(quotient.reshape(-1,1))
# result
KMeans(algorithm='auto', copy_x=True, init='k-means++', max_iter=300,
n_clusters=3, n_init=10, n_jobs=None, precompute_distances='auto',
random_state=0, tol=0.0001, verbose=0)
关于python-3.x - K均值聚类-Valueerror:n_samples = 1应该> = n_clusters,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/54833924/