11.04机器学习记录

# 11.04记录

分类和回归

分类

指预测的结果是离散的,例如预测小动物的类型,一个人是男的还是女的。这种有结果可选的预测就是分类

回归

指预测的结果是连续的,例如预测明天苏州的气温,一个人的BMI值。这类预测的结果可以精确到小数,例如气温可以是38.23322122333摄氏度,结果是一个具体的值。

KNN

KNN指的是把一个样本点X,根据周围K个样本点来决定X的属性,X的跟随多的那部分。

例如,下图中,actor为样本点,当k=5的时候,actor就由周围最近的5个点决定,周围5个里面,有3个圆圈,2个正方形,那么actor就为圆圈。

image-20251104215012959

K值

K值的大小会造成误差

K太小

会产生估计误差,例如,K=1的时候,X的命运只由一个点决定,就是离他最近的点,万一这个点为噪声点,那么X就被预测错误了,产生了估计误差。

K太大

会产生近似误差,例如K趋于无穷大,他会囊括所有样本点,如果A类型少于B类型,尽管少了1个,那么X永远是B类型。

决策规则

KNN的决策规则就是简单的投票,通俗的说,X周围的K个样本点投票决定X的阵营。

归一化

如果某个特征的值域非常大,例如银行卡存款,那么在计算的时候,他就会占据非常大的比重,不仅不好计算,而且跟正常的情况也不相符,所以需要进行归一化,就是把所有的值归到[0,1]之间,计算公式:

\[(currentVal-min)/(max-min) \]

类似与求权重的公式。

距离

常用的距离是欧氏距离,当然还有其他距离。距离就是用来决定邻近的关键因素。

欧氏距离:多维空间中各点的绝对距离。

明可夫斯基距离(明氏距离):欧氏距离的一般形式,当p=2时即为欧式距离。

曼哈顿距离:明氏距离公式的p=1时即为曼哈顿距离。

余弦相似度:向量空间中2个向量的余弦值。

posted @ 2025-11-05 16:21  J4cкW3s13У  阅读(21)  评论(0)    收藏  举报