监督学习\无监督学习
监督学习:
通过给定输入输出值学习只给定输入就能获取输出的方式;
监督学习包含两种预测的方式:
回归:
给定输入值,在无数可能的输出中选取其中一种结果并输出;
回归是为了学习最佳的拟合曲线;
分类:
给定输入值,在少数可能的输出中选取一种结果输出;
分类是为了学习最佳的决策边界;(决策边界就是区分不同类型的边界线)
无监督学习:
训练时只有输入,没有给定输出值,让算法自己找到数据的特殊结构(寻找cluster聚类);
聚类算法K-means K表述要将数据区分的种类数量,其通常流程如下:
1.在已有数据中随机选择K个坐标作为质点u;
2.对说有数据根据步骤1中选在的质点做聚类(分类),根据每个数据坐标跟质点之间的距离进行分类,距离的计算方式可以是欧式距离或者其他;类别的计算公式为:k = mini| xiui|
其意义为该数据点的类别为跟其距离最短的质心u所代表的类别;
3.重新规划质心,求每个类别中的样本平均值,计算方式就是将当前类别中所有样本相加除于当前类别中样本的数量,然后将该平均值设置该类别的新质点;
4.对以下三个条件进行判断,若有任何一个条件被满足,则结束聚类,返回结果;如果都不满足,则返回步骤2继续进行聚类。三个条件如下:
一、没有或者小于最小阈值个对象被重新分配;(聚类过后,被改变类别的数据数量小于一定值);
二、没有或者小于最小阈值个聚类质心发生变化;
三、Loss= ΣkΣx€Cluster-k|xiui|足够小,即将所有分类中所有数据点距离其质点的距离相加后的值,小于某一个阈值;
K-means的适用范围:特征维度不超过1000,尤其是在维度100以下的情况,K-means的表现不错!超过1000则不适用;(原因:维度越高,两点之间距离越不敏感);
K-means对初试质点敏感,不同的初试质点聚类的结果不同(原因:Loss函数常常有局部最小值);

浙公网安备 33010602011771号