为了说明,假设我正在检查9个最近的邻居并在手写数字数据集上进行分类。测试集中的第一个实例具有五个最近的“ 4”类邻居和四个最近的“ 9”类邻居。第二个测试实例具有八个“ 4”类邻居和一个“ 9”类邻居。显然,第二个测试实例被确定为“ 4”,其确定性比第一个更高。如何用函数表达这一点,以及如何考虑距离?

我还想将其实现到其他分类器。对于任何类型的分类器,是否有可能使用此功能的C / C ++库?

最佳答案

天真的答案:对计数进行归一化可以得出后验概率。使用加权计数,权重对应于相似度(距离的倒数)以考虑距离。

更好的主意:将kernel density estimation作为对此的更正式版本。

关于machine-learning - 如何测量k最近邻分类器给出的结果的可靠性?,我们在Stack Overflow上找到一个类似的问题:https://stackoverflow.com/questions/24625955/

10-12 21:44