k-近邻算法采取的是利用多个特征值之间的距离进行分析。比如现在有n个数据,类的标签为A,B,C,每个数据对应一个标签,此时来个一个数据没有任何标签,只有其多个特征值信息,那我们就可以计算出这个数据和每个已分类数据的距离,找出其距离前k近的数据,看在这些数据中哪种标签占的比重最多,那么这个数据就分为这个标签。
从描述中可以发现k-近邻算法的缺点:1.需要计算和所有样本之间的距离(计算复杂度高);2.如果选取的特征值过多就会导致空间复杂度高。当然其优点也很明显,由于要计算和所有样本之间的距离,所以如果有某个异常值则不会影响最终结果(对异常值不敏感,精度高,无数据输入假设)。
浙公网安备 33010602011771号