”“”K-Means to realize Image segmentation “”“
import numpy as np
import PIL.Image as image
from sklearn.cluster import KMeans
#Define loadDato to solve my image
def loadData(filePath):
     f = open(filePath,'rb')#deal with binary 
     data = []
     img = image.open(f)#return to pixel(像素值)
     m,n = img.size#the size of image
     for i in range(m):
         for j in range(n):
             x,y,z = img.getpixel((i,j))
             #deal with pixel to the range 0-1 and save to data
             data.append([x/256.0,y/256.0,z/256.0])
     f.close()
     return np.mat(data),m,n

imgData,row,col = loadData("./picture/apple.png")
#setting clusers(聚类中心) is 3
label = KMeans(n_clusters=3).fit_predict(imgData)
#get the label of each pixel
label = label.reshape([row,col])
#create a new image to save the result of K-Means
pic_new = image.new("L",(row,col))
#according to the label to add the pixel
for i in range(row):
     for j in range(col):
         pic_new.putpixel((i,j),int(256/(label[i][j]+1)))
pic_new.save("./picture/km.jpg","JPEG")

K-Means算法:

我们常说的K-Means算法属于无监督分类(训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质和规律,为进一步的数据分析提供基础),它通过按照一定的方式度量样本之间的相似度,通过迭代更新聚类中心,当聚类中心不再移动或移动差值小于阈值时,则就样本分为不同的类别。聚类试图将数据集中的样本划分为若干个通常是不相交的子集,每个子集称为一个”簇“,通过这样的划分,每个簇可能对应于一些潜在的类别。

算法实现步骤:

  • 随机选取聚类中心
  • 根据当前聚类中心,利用选定的度量方式,分类所有样本点
  • 计算当前每一类的样本点的均值,作为下一次迭代的聚类中心
  • 计算下一次迭代的聚类中心与当前聚类中心的差距,若差距小于迭代阈值时,迭代结束。

算法伪代码:

其中,D为样本集,聚类所得簇划分为C

图像分割实验:利用图像的灰度、颜色、纹理、形状等特征,把图像分成若 干个互不重叠的区域,并使这些特征在同一区域内呈现相似性,在不同的区 域之间存在明显的差异性。然后就可以将分割的图像中具有独特性质的区域 提取出来用于不同的研究。本次实验我们将apple聚类中心设置n_clusters=3,cat聚类中心设置为2

1、实验步骤

  • 建立kms.py工程并导入所需python包
  • 加载本地图片进行预处理
  • K-Means聚类算法实现
  • 聚类像素点并保存输出

2、实验数据

      测试image:

3、实验结果

3、实验总结

在本次实验中,我们通过设置不同的聚类中心,从而得到不同的聚类结果。如果想要得到预想的效果,必须多次尝试,这使得K值具有不确定性,不利于我们操作。

在进行本次实验时,遇到如下问题:

(1)IndentationError: unindent does not match any outer indentation level

(2)ValueError: cannot reshape array of size 500 into shape (500,500)

问题解决:

这两个问题出现的原因均是对其python格式对齐出现问题,f的打开和f的关闭应该对齐,而报错的原因也恰在这里。一般(2)的报错原因最多可能是数据格式有问题,但在考虑数据格式有问题的时候,首先查看代码格式是否正确。

输入:样本集 

          聚类簇数k

过程:

D中随机选择k个样本作为初始均值向量

repeat

for  do

计算样本与各均值向量的距离:;

根据距离最近的均值向量确定的簇标记: 

将样本划入相应的簇: 

end for

for  

计算新的均值向量: 

   If  then

 将当前均值向量更新为

else

保持当前均值向量不变

end if

end for

until 当前均值向量均未更新

输出:簇划分 

  

01-25 14:51