特征工程实践总结

1.样本不平衡性

常见处理方法:

  • 过采样(正负样本一样多):增加正样本个数
    • 方法:通常通过SMOTE进行样本生成
    • 特点:召回率略低,但误杀率也低
  • 下采样(正负样本一样少):减少负样本个数
    • 方法:原数据要拆分为train_set1和test_set1,针对整个数据集下采样后数据也要拆分为train_set2和test_set2,然后用train_set2进行模型训练,用test_set1进行结果验证
    • 特点:召回率高,但误杀率也高(坏样本大部分都能检测出来,好样本误判为好样本太多,增加工作量 )

 注:

  • 数据不平衡时,注意查看正样本召回率,而非整体准确率
  • 在正样本量较小时,尽量选用过采样,能用生成策略就用生成策略,数据越多越好

 

2. 交叉验证

作用:通过K折交叉验证,找出模型最优参数。可通过遍历各参数列表,查看各参数值表现,从而选择最优参数。或者直接通过GridSearchCV直接选择最优参数变量。

目的:防止验证集存在异常点,造成预测结果太差;或者验证集太简单,在成预测结果太好,容易产生过拟合;取每次交叉验证的均值,则可避免这种情况。

数据区间:训链集train_set2

 

3.模型评估

 

4.正则化

正则化的目的:正则化是为了防止过拟合

参考链接:https://blog.csdn.net/jinping_shi/article/details/52433975

 

5.

posted on 2018-10-09 14:23  布衣小工  阅读(386)  评论(0编辑  收藏  举报

导航