4.K均值算法--应用
1. 应用K-means算法进行图片压缩
读取一张图片
观察图片文件大小,占内存大小,图片数据结构,线性化
用kmeans对图片像素颜色进行聚类
获取每个像素的颜色类别,每个类别的颜色
压缩图片生成:以聚类中收替代原像素颜色,还原为二维
观察压缩图片的文件大小,占内存大小
from sklearn.datasets import load_sample_image
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import matplotlib.image as img
import sys
import numpy as np
picture = img.imread("C://Users/lucas-lyw/Desktop/Lyw/sky.jpg") # 读取自己准备的图片
print("图片的大小:", picture.size)
print("图片占用的内存:", sys.getsizeof(picture))
print("图片的数据结构:\n", picture)
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.imshow(picture) # 显示图片
plt.show()
image = picture[::3,::3] # 降低图片3倍的分辨率
x = image.reshape(-1,3)
print(image.shape,x.shape,picture.shape)
n_colors = 45
model = KMeans(n_colors) # 对颜色进行聚类
labels = model.fit_predict(x) # 获取每个像素的颜色类别
colors = model.cluster_centers_ # 每个类别的颜色
new_image = colors[labels].reshape(image.shape)
# 压缩图片
plt.imshow(new_image.astype(np.uint8))
plt.show()
# 二次压缩图片
plt.imshow(new_image.astype(np.uint8)[::3, ::3])
plt.show()
运行结果:

原图:
第一次压缩:

第二次压缩:

2. 观察学习与生活中可以用K均值解决的问题
from sklearn.cluster import KMeans
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
data = pd.read_csv('./data/house.csv',index_col=0)
#x = data.iloc[:,[2,7]].astype('int')
#x = np.array(x)
x = data.iloc[: ,[2]] #获取“总价”
y = data.iloc[:,[7]] #面积
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.2,random_state=5) #划分成功
km_model = KMeans(n_clusters=3)
km_model.fit(x)
y_kmeans= km_model.predict(x)
# price_high=np.array(data[y_kmeans==2]['总价'])
# price_mid=np.array(data[y_kmeans==1]['总价'])
# price_low=np.array(data[y_kmeans==0]['总价'])
plt.rcParams['font.sans-serif'] = 'SimHei' # 设置中文显示
plt.xlabel('总价')
plt.ylabel('面积')
plt.title("总价与面积的关系如下:")
plt.scatter(x_test,y_test,s=60,c='blue')
运行结果:


浙公网安备 33010602011771号