这是代码。
from sklearn.neighbors import NearestNeighbors
import numpy as np
X = np.array([[-1, -1], [-2, -1], [-3, -2], [1, 1], [2, 1], [3, 2]])
nbrs = NearestNeighbors(n_neighbors=2, algorithm='ball_tree').fit(X)
distances, indices = nbrs.kneighbors(X)
>indices
>array([[0, 1],[1, 0],[2, 1],[3, 4],[4, 3],[5, 4]])
>distances
>array([[0. , 1. ],[0. , 1. ],[0. , 1.41421356], [0. , 1. ],[0. , 1. ],[0. , 1.41421356]])
我不太了解“索引”和“距离”的形状。我如何理解这些数字的含义?
最佳答案
实际上,它非常简单。对于kneighbors()
(此处为X
)输入中的每个数据样本,它将显示2个邻居。 (因为您已指定n_neighbors=2
。indices
将为您提供训练数据的索引(此处再次为X
),而distances
将为您提供训练数据中相应数据点的距离(索引指向该距离)指)。
以单个数据点为例。假设X[0]
作为第一个查询点,答案将是indices[0]
和distances[0]
所以对于X[0]
训练数据中第一近邻的索引为indices[0, 0] = 0
,距离为distances[0, 0] = 0
。您可以使用此索引值从训练数据中获取实际数据样本。
这是有道理的,因为您使用了相同的数据进行训练和测试,所以每个点的第一个最近邻居是它自己,距离是0
。
第二近邻的索引为indices[0, 1] = 1
,距离为distances[0, 1] = 1
对于所有其他要点也是如此。 indices
和distances
中的第一个维度对应于查询点,第二个维度对应于所请求的邻居数。
关于python - 与sklearn.neighbors.NearestNeighbors的输出混淆,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/53886289/