这节继续上节的KMeans进行介绍,上节主要是对模糊KMeans方法的原理做了介绍,没有实践印象总是不深刻,前段时间有个师姐让我帮着写了个模糊KMeans的算法,今天就拿她给出的例子来对这个方法做个实践讲解。她给的数据是n个行业在m年内的资源消耗参数,想通过FCM算法对这些行业进行聚类,从而在能耗上对它们进行分类。处理的数据很简单,所以用FCM这种简单的聚类算法就足可以达到要求了。给出数据的一角:

Matalab之模糊KMeans实现-LMLPHP

具体处理过程我就不啰嗦了,核心思想就是FCM算法,给出一个具体的流程图

Matalab之模糊KMeans实现-LMLPHP

根据步骤我将算法实现分成了五个子函数和一个主函数,直接上代码(其中有详细的解释)

% 子函数1
function U = initfcm(cluster_n, data_n)
% 初始化fcm的隶属度函数矩阵
% 输入:
% cluster_n ---- 聚类中心个数
% data_n ---- 样本点数
% 输出:
% U ---- 初始化的隶属度矩阵
U = rand(cluster_n, data_n);
col_sum = sum(U);
U = U./col_sum(ones(cluster_n, ), :);
% 子函数2
function [U_new, center, obj_fcn] = stepfcm(data, U, cluster_n, expo)
% 模糊C均值聚类时迭代的一步
% 输入:
% data ---- nxm矩阵,表示n个样本,每个样本具有m的维特征值
% U ---- 隶属度矩阵
% cluster_n ---- 标量,表示聚合中心数目,即类别数
% expo ---- 隶属度矩阵U的指数
% 输出:
% U_new ---- 迭代计算出的新的隶属度矩阵
% center ---- 迭代计算出的新的聚类中心
% obj_fcn ---- 目标函数值
mf = U.^expo; % 隶属度矩阵进行指数运算结果
center = mf*data./((ones(size(data, ), )*sum(mf'))'); % 新聚类中心(5.4)式
dist = distfcm(center, data); % 计算距离矩阵
obj_fcn = sum(sum((dist.^).*mf)); % 计算目标函数值 (5.1)式
tmp = dist.^(-/(expo-));
U_new = tmp./(ones(cluster_n, )*sum(tmp)); % 计算新的隶属度矩阵 (5.3)式
% 子函数3
function out = distfcm(center, data)
% 计算样本点距离聚类中心的距离
% 输入:
% center ---- 聚类中心
% data ---- 样本点
% 输出:
% out ---- 距离
out = zeros(size(center, ), size(data, ));
for k = :size(center, ), % 对每一个聚类中心
% 每一次循环求得所有样本点到一个聚类中心的距离
out(k, :) = sqrt(sum(((data-ones(size(data,),)*center(k,:)).^)',1));
end
% 子函数4
function DataOut = Unitfcm(DataOrg)
% 对输入数据进行标准化和归一化处理
% 输入:
% DataOrg ---- 样本数据
% 输出:
% DataOut ---- 归一化数据
X_col=sum(DataOrg,)./size(DataOrg,);
S_col=sqrt(sum((DataOrg-X_col(ones(size(DataOrg,),),:)).^,)./(size(DataOrg,)-));
DataUnit=(DataOrg-X_col(ones(size(DataOrg,),),:))./S_col(ones(size(DataOrg,),),:);%标准化结果
C_col=max(abs(DataUnit),[],);
DataOut=(DataUnit+C_col(ones(size(DataUnit,),),:))./(*C_col(ones(size(DataUnit,),),:));%归一化后的结果
% 子函数5
function ShowResult(U)
% 呈现聚类结果
% 输入:
% U ---- 隶属度矩阵
for i=:size(U,)
data=U(:,i);
[row,col]=find(data==max(data));
disp(['第',num2str(i),'个样本属于',num2str(row),'类']);
end
function [center, U, obj_fcn] = FCMClust(data, cluster_n, options)
% FCMClust.m 采用模糊C均值对数据集data聚为cluster_n类
% 用法:
% . [center,U,obj_fcn] = FCMClust(Data,N_cluster,options);
% . [center,U,obj_fcn] = FCMClust(Data,N_cluster);
% 输入:
% data ---- nxm矩阵,表示n个样本,每个样本具有m的维特征值
% N_cluster ---- 标量,表示聚合中心数目,即类别数
% options ---- 4x1矩阵,其中
% options(): 隶属度矩阵U的指数,> (缺省值: 2.0)
% options(): 最大迭代次数 (缺省值: )
% options(): 隶属度最小变化量,迭代终止条件 (缺省值: 1e-)
% options(): 每次迭代是否输出信息标志 (缺省值: )
% 输出:
% center ---- 聚类中心
% U ---- 隶属度矩阵
% obj_fcn ---- 目标函数值
% Example:
% data = rand(,);
% [center,U,obj_fcn] = FCMClust(data,);
% plot(data(:,), data(:,),'o');
% hold on;
% maxU = max(U);
% index1 = find(U(,:) == maxU);
% index2 = find(U(,:) == maxU);
% line(data(index1,),data(index1,),'marker','*','color','g');
% line(data(index2,),data(index2,),'marker','*','color','r');
% plot([center([ ],)],[center([ ],)],'*','color','k')
% hold off;
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%% if nargin ~= & nargin ~= , %判断输入参数个数只能是2个或3个
error('Too many or too few input arguments!');
end data_n = size(data, ); % 求出data的第一维(rows)数,即样本个数
in_n = size(data, ); % 求出data的第二维(columns)数,即特征值长度
% 默认操作参数
default_options = [; % 隶属度矩阵U的指数
; % 最大迭代次数
1e-; % 隶属度最小变化量,迭代终止条件
]; % 每次迭代是否输出信息标志 if nargin == ,
options = default_options;
else %分析有options做参数时候的情况
% 如果输入参数个数是二那么就调用默认的option;
if length(options) < , %如果用户给的opition数少于4个那么其他用默认值;
tmp = default_options;
tmp(:length(options)) = options;
options = tmp;
end
% 返回options中是数的值为0(如NaN),不是数时为1
nan_index = find(isnan(options)==);
%将denfault_options中对应位置的参数赋值给options中不是数的位置.
options(nan_index) = default_options(nan_index);
if options() <= , %如果模糊矩阵的指数小于等于1
error('The exponent should be greater than 1!');
end
end
%将options 中的分量分别赋值给四个变量;
expo = options(); % 隶属度矩阵U的指数
max_iter = options(); % 最大迭代次数
min_impro = options(); % 隶属度最小变化量,迭代终止条件
display = options(); % 每次迭代是否输出信息标志 obj_fcn = zeros(max_iter, ); % 初始化输出参数obj_fcn U = initfcm(cluster_n, data_n); % 初始化模糊分配矩阵,使U满足列上相加为1, %添加输入数据归一化处理
DataInfo=Unitfcm(data); % Main loop 主要循环
for i = :max_iter,
%在第k步循环中改变聚类中心ceneter,和分配函数U的隶属度值;
[U, center, obj_fcn(i)] = stepfcm(DataInfo, U, cluster_n, expo);
if display,
fprintf('FCM:Iteration count = %d, obj. fcn = %f\n', i, obj_fcn(i));
end
% 终止条件判别
if i > ,
if abs(obj_fcn(i) - obj_fcn(i-)) < min_impro, break;
end,
end
end iter_n = i; % 实际迭代次数
obj_fcn(iter_n+:max_iter) = [];

OK,结束了,但愿能对减少大家的工作量带来帮助。

05-04 05:04