⛄ 内容介绍

KNN(k Nearest Neighbor)算法是1种简单、有效、非参数的文本分类法,但缺点是样本相似度的计算量大,故不适用于有大量高维样本的文本。一方面,本文分析了KNN算法的优点和缺陷,采用了1种应用特征词提取和特征词聚合的方法来改进KNN算法在特征词提取方面的不足。另一方面,本文又深入研究了模拟退火算法思想,采用退火模拟思想的典型优化组方法和模拟退火算法原理来加快KNN算法的分类速度。最后,通过2种方法的加入改进了KNN分类算法。实验结果表明,本文提出的方法大大提高了分类算法的效率和性能。​

⛄ 部分代码

clear;
clc;

% 训练数据、训练数据标签、测试数据、测试数据标签
load(['train_scale.mat']);
load(['train_labels.mat']);
load(['test_scale.mat']);
load(['test_labels.mat']);

K=8;   % k一般低于训练样本数的平方根
error=0;
[mtrain,ntrain]=size(train_scale);
[mtest,ntest]=size(test_scale);

% 外循环控制测试数据,内循环控制训练数据
for i=1:mtest
    dist=zeros(mtrain,1);
    for j=1:mtrain
        dist(j)=norm(train_scale(j,:)-test_scale(i,:));  %计算训练数据集与测试数据之间的欧氏距离dist
    end
    %将dist从小到大进行排序
    [Y,I]=sort(dist,1);
    
    %将训练数据对应的类别与训练数据排序结果对应
    train_labels=train_labels(I);
    
    %确定前K个点所在类别的出现频率
    classNum=length(unique(train_labels));%取集合中的单值元素的个数,得到类别数量
    predict_labels=zeros(1,classNum);
    
    % 以下for循环统计分类的标签数量
    for j=1:K
        j=train_labels(j);
        predict_labels(j)=predict_labels(j)+1;
    end
    
    %返回前K个点中出现频率最高的类别作为测试数据的预测分类
    [~,idx]=max(predict_labels);
    
    fprintf('该测试数据属于类 %d\n',idx);
    fprintf('该测试数据的真实类为:%d\n',test_labels(i));
    if idx~=test_labels(i)
        error=error+1;
    end
end
accuracy=(1-error/mtest)*100;
fprintf('准确率为:%f%%\n',accuracy);
 

⛄ 运行结果

【KNN分类】基于模拟退火优化KNN、蝗虫算法优化KNN实现数据分类附matlab代码-LMLPHP

⛄ 参考文献

[1]邓箴, 包宏. 用模拟退火改进的KNN分类算法[J]. 计算机与应用化学, 2010(3):5.2019), In press.

⛄ Matlab代码关注

❤️部分理论引用网络文献,若有侵权联系博主删除

❤️ 关注我领取海量matlab电子书和数学建模资料

12-15 12:39