数据预处理之归一化
归一化在0-1之间是统计的概率分布,归一化在-1--+1之间是统计的坐标分布。,神经网络是以样本在事件中的统计分别几率来进行训练(概率 计算)和预测的,归一化是同一在0-1之间的统计概率布;SVM是以降维后线性划分距离来分类和仿真的,因此时空降维归一化是统一在-1--+1之间的统 计坐标分布。当所有样本的输入信号都为正值时,与第一隐含层神经元相连的权值只能同时增加或减小,从而导致学习速度很慢。为了避免出现这种情况,加快网络 学习速度,可以对输入信号进行归一化,使得所有样本的输入信号其均值接近于0或与其均方差相比很小。
归一化是因为sigmoid函数的取值是0到1之间的,网络最后一个节点的输出也是如此,所以经常要对样本的输出归一化处理
关于神经网络(matlab)归一化的整理:
由于采集的各数据单位不一致,因而须对数据进行[-1,1]归一化处理,归一化方法主要有如下几种,供大家参考:
1、线性函数转换,表达式如下:
y=(x-MinValue)/(MaxValue-MinValue)
说明:x、y分别为转换前、后的值,MaxValue、MinValue分别为样本的最大值和最小值。
2、对数函数转换,表达式如下:
y=log10(x)
说明:以10为底的对数函数转换。
3、反余切函数转换,表达式如下:
y=atan(x)*2/PI
归一化是为了加快训练网络的收敛性,可以不进行归一化处理
试图填充缺失值,光滑噪声并识别离群点,并纠正数据中的不一致。
1)处理缺失值方法:
a.忽略元祖,挖掘任务涉及分类任务中如果缺少类标号时通常这样做
b.人工填写缺失值,量大时行不通
c.使用一个全局常量填充缺失值,简单但不可靠
d.使用属性的均值填充缺失值
e.使用与给定元组属同一类的所有样本的属性均值
f.使用最有可能的值填充缺失值,可以用回归,使用贝叶斯形式化的基于推理的工具或决策树归纳确定,是流行的做法
4.处理空缺值的方法:忽略该记录;去掉属性;手工填写空缺值;使用默认值;使用属性平均值;使用同类样本平均值;预测最可能的值。
浙公网安备 33010602011771号