11.04机器学习记录
# 11.04记录
分类和回归
分类
指预测的结果是离散的,例如预测小动物的类型,一个人是男的还是女的。这种有结果可选的预测就是分类
回归
指预测的结果是连续的,例如预测明天苏州的气温,一个人的BMI值。这类预测的结果可以精确到小数,例如气温可以是38.23322122333摄氏度,结果是一个具体的值。
KNN
KNN指的是把一个样本点X,根据周围K个样本点来决定X的属性,X的跟随多的那部分。
例如,下图中,actor为样本点,当k=5的时候,actor就由周围最近的5个点决定,周围5个里面,有3个圆圈,2个正方形,那么actor就为圆圈。

K值
K值的大小会造成误差
K太小
会产生估计误差,例如,K=1的时候,X的命运只由一个点决定,就是离他最近的点,万一这个点为噪声点,那么X就被预测错误了,产生了估计误差。
K太大
会产生近似误差,例如K趋于无穷大,他会囊括所有样本点,如果A类型少于B类型,尽管少了1个,那么X永远是B类型。
决策规则
KNN的决策规则就是简单的投票,通俗的说,X周围的K个样本点投票决定X的阵营。
归一化
如果某个特征的值域非常大,例如银行卡存款,那么在计算的时候,他就会占据非常大的比重,不仅不好计算,而且跟正常的情况也不相符,所以需要进行归一化,就是把所有的值归到[0,1]之间,计算公式:
\[(currentVal-min)/(max-min)
\]
类似与求权重的公式。
距离
常用的距离是欧氏距离,当然还有其他距离。距离就是用来决定邻近的关键因素。
欧氏距离:多维空间中各点的绝对距离。
明可夫斯基距离(明氏距离):欧氏距离的一般形式,当p=2时即为欧式距离。
曼哈顿距离:明氏距离公式的p=1时即为曼哈顿距离。
余弦相似度:向量空间中2个向量的余弦值。

浙公网安备 33010602011771号