4.K均值算法

1. 应用K-means算法进行图片压缩。

读取一张图片

观察图片文件大小，占内存大小，图片数据结构，线性化

用kmeans对图片像素颜色进行聚类

获取每个像素的颜色类别，每个类别的颜色

压缩图片生成：以聚类中收替代原像素颜色，还原为二维

观察压缩图片的文件大小，占内存大小

from sklearn.datasets import load_sample_image
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from pylab import mpl
import sys
import numpy as np
import matplotlib.image as img
# 指定字体，解决plot不能显示中文的问题
mpl.rcParams['font.sans-serif'] = ['SimHei']
china = load_sample_image("china.jpg")  # 读取一张图片
plt.imshow(china)
plt.title("原图片")
plt.show()  # 显示图片
img.imsave('D://img//china.jpg', china) 
print("图片占内存大小", sys.getsizeof(china))  
print("图片数据结构", china.shape) 
image = china[::3, ::3]
print("降低分辨率后图片的数据结构", image.shape)
x = image.reshape(-1, 3)    # 线性化
print("线性化后的数据结构", x.shape)
# 用kmeans对图片像素颜色进行聚类
n_colors = 64  # (255，255，255)
model = KMeans(n_colors)  # 64类聚类中心
labels = model.fit_predict(x)   # 每个像素的颜色类别
print("每个像素的颜色类别的数据结构", labels.shape)
colors = model.cluster_centers_  # 每个类别的颜色
print("每个类别的颜色的数据结构", colors.shape)
new_image = colors[labels]  # 以聚类中收替代原像素颜色
new_image = new_image.reshape(image.shape)  # ,还原为二维数组
print("压缩图片占内存大小", sys.getsizeof(new_image))   # 压缩图片占内存大小
new_image = new_image.astype(np.uint8)
plt.imshow(new_image)
plt.title("压缩后的图片")
plt.show()  # 显示图片
img.imsave('D://img//new_china.jpg', new_image)   # 保存图片，查看压缩图片的文件大小

2. 观察学习与生活中可以用K均值解决的问题。

从数据-模型训练-测试-预测完整地完成一个应用案例。

这个案例会作为课程成果之一，单独进行评分。

from sklearn.cluster import KMeans #导入kmeans算法
airline_scale = np.load('../tmp/airline_scale.npz')['arr_0']
k = 5 ## 确定聚类中心数
#构建模型
kmeans_model = KMeans(n_clusters = k,n_jobs=4,random_state=123)
fit_kmeans = kmeans_model.fit(airline_scale)   #模型训练
kmeans_model.cluster_centers_ #查看聚类中心

kmeans_model.labels_ #查看样本的类别标签

#统计不同类别样本的数目
r1 = pd.Series(kmeans_model.labels_).value_counts()
print('最终每个类别的数目为：\n',r1)

posted @ 2020-06-06 23:06 真真不知阅读(176) 评论(0) 收藏举报

刷新页面返回顶部

真真不知

4.K均值算法

公告