3.K均值算法
1). 扑克牌手动演练k均值聚类过程:>30张牌,3类
31张牌,随机抽了3张K、10、5然后进行k均值聚类(分3类)

K、10、5 —> K、9、4

K、9、4 —> K、9、3(分类完毕)

3). 用sklearn.cluster.KMeans,鸢尾花花瓣长度数据做聚类,并用散点图显示.
import matplotlib.pyplot as plt
import numpy as np
from sklearn.cluster import KMeans
from sklearn.datasets import load_iris
iris = load_iris()
sl=iris.data[:,1]
X=sl.reshape(-1,1)
a = KMeans(n_clusters=3)
a.fit(X)
y_kmeans = a.predict(X)#预测每个样本的聚类索引
plt.scatter(X[:, 0], X[:, 0], c=y_kmeans, s=50, cmap='rainbow',marker='x');
plt.show()

4). 鸢尾花完整数据做聚类并用散点图显示.
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans
from sklearn.datasets import load_iris
data = load_iris()
X1 =iris.data#数据
a1=KMeans(n_clusters=3) #配置,构造
a1.fit(X1)#训练
y_kmeans1 = a1.predict(X1) #预测
y_kmeans = a.predict(X)#预测每个样本的聚类索引
plt.scatter(X1[:, 2], X1[:, 3], c=y_kmeans, s=50, cmap='rainbow',alpha=0.5,marker='*');
plt.show()

5).想想k均值算法中以用来做什么?
可以通过k均值算法进行库存分类,例如按销售活动分组库存或者按制造指标对库存进行分组,也可以用来识别不同类型的癌症特征。
浙公网安备 33010602011771号