基于模型过程中的特征选择

特征选择的常用方法

过滤法

  • 按照发散性或者相关性对各个特征进行评分,通过设定阈值或者待选择阈值的个数来选择特征。
  • 描述:过滤法是一种基于特征与目标变量之间的统计关系进行筛选的方法。它通过计算各个特征的某种统计指标(如方差、相关系数等)来评估特征的重要性,然后根据设定的阈值或排名选择特征。
  • 特点:过滤法计算简单,运算速度快,不需要进行模型训练。它可以快速筛选出与目标变量相关性较强的特征,适用于初步的特征筛选和数据维度较高的情况。
  • 场景:适用于数据集较大、特征维度较高、需要快速筛选特征的场景。

包装法

  • 根据目标函数(通常是预测效果评分)每次选择若干特征,或者排除若干特征。
  • 描述:包装法通过将特征选择过程嵌入到模型训练中,使用特定的评估指标(如模型性能)来评估特征的重要性,并逐步选择最佳的特征子集。
  • 特点:包装法考虑了特征之间的相互关系和模型性能,它可以更准确地选择最优特征子集。但由于需要多次训练模型,计算开销较大。
  • 场景:适用于特征与目标变量之间存在复杂的非线性关系、交互作用较多的场景。

嵌入法

  • 使用机器学习的某些算法或模型进行训练,得到各个特征的权值系数,并根据系数从大到小选择特征。
  • 描述:嵌入法是在模型训练过程中自动进行特征选择的方法。它通过将特征选择过程嵌入到模型的参数估计或正则化过程中,使得模型在训练过程中自动选择重要的特征。
  • 特点:嵌入法考虑了特征的重要性和模型的性能,可以自动选择适合特定模型的特征子集。它通常与具有正则化能力的模型(如 L1 正则化的线性模型)结合使用。
  • 场景:适用于需要训练复杂模型、数据集较大的场景,同时要求模型具有较好的泛化能力。

总结

总体而言,过滤法适用于快速初步筛选特征的场景;包装法适用于特征与目标变量之间关系复杂、交互作用多的场景;嵌入法适用于数据集较大、需要训练复杂模型的场景。选择合适的特征选择方法需要根据具体问题的特点、数据集的属性和模型的需求进行综合考虑。

posted @ 2023-05-17 15:00  上海志彦  阅读(48)  评论(0编辑  收藏  举报