2024/1/26学习进度笔记

特征缩放

特征缩放:将不同特征的值量化到同一区间的方法。

简单来说就是将原本由于单位不同而导致数值范围上存在较大差异的特征放到同一个数值区间内。

特征的数值范围差异较大,在采用欧式距离来衡量两个特征间的距离时,就会导致最终距离仅取决于取值范围跨度最大的特征。举个例子。

假设我们要从身高特征和年龄特征来区分两个人,其中我们根据常识可以知道年龄的取值范围为 [1, 100],身高的取值范围在 [0.4, 2.5] (单位:m)。那么按照欧式距离计算,特征间的距离严重取决于年龄的影响,而身高对两者的距离影响极小,也就是说即便我们对两个特征同时考察,实际上我们无意识地仅考察了一个影响因素,这在模型训练中是致命的。

而导致类似身高、体重、年龄这些不同特征的取值范围不同的原因就是他们的单位不同。

 

另一方面,对于没有进行特征缩放的训练集使用梯度下降法训练时,会导致迭代次数增加的情况。

通过图片我们可以很直观地看出,在使特征相近区域内(不一定要相同)有助于减少提高梯度下降法的迭代次数,从而提升模型训练速度,使模型更快地收敛。

 

posted @ 2024-01-26 18:06  努力学习2333  阅读(63)  评论(0)    收藏  举报