全部文章

入模评估

1 作用

模型评估一般有两个目的: 1. 检验特征工程的工作,查看所选择的特征是否有利于提升模型的性能。 2. 检查参数调整的工作,通过调整模型参数,找到最佳参数使得模型的分类、预测性能最佳。

特征工程需要在机器学习的应用中加深理解一个完整的特征工程、机器学习的处理过程是: 应用机器学习的过程包含许多步骤。从问题的定义,到数据的选择和准备,以及模型的准备,模型的评价和调参,最后是结果的表达。这个过程中与我们的话题相关的部分可以用下面几步描述:

1.选择数据:整合数据,规范化到数据集中,集中数据

2.预处理数据:格式化,清理,采样

3.转换数据:特征工程要做的事情

4.建模数据:建立模型,评价模型,调整模型 我们看到紧随着特征工程就是建模。这表明,我们做特征工程需要与模型,表现度量相结合。同时也表明,我们需要留下那些适合建模的数据。比如说在最后一步规范化和标准化数据。这看起来是一个预处理的步骤,但实际上他帮助我们意识到对于一个有效模型需要什么样的最终形态。

特征工程的迭代过程: 知道特征工程的地位,我们就明确特征工程不是一个孤立的过程。特征工程是一个根据模型评价一次又一次的迭代过程。这个过程主要包括以下几个步骤:

1、头脑风暴:深入了解问题,观察数据,研究特征工程和其他相关问题。

2、设计特征:这个依赖于具体的问题,但是你可能使用自动化的特征提取方式,或者人工构造,或者二者结合。

3、选择特征:使用不同的特征重要性评价指标以及不同的特征选择方法。

4、评价模型:在未知数据集上测试模型性能

认真考虑并且设计在未知数据集上的测试方式。这是对特征工程过程最好的评价方式。

2 回归预测问题

对于连续型目标变量的回归预测问题,评估模型的方法一般有: R^2值 R^2越大,模型的预测效果越好。 (后续补充)

3 分类预测问题

对于离散型目标变量的分类预测问题,评估模型的方法一般有: 交叉检验 观察模型的预测准确率,越大越好。但注意使用决策树或随机森林时的过拟合问题。 AUC、ROC 观察模型的ROC曲线及AUC值,越大越好

七 结束语

特征工程做的好,后期的模型调参更容易甚至不用调参,模型的稳定性,可解释性也要更好。如果特征工程做得不好,模型评估怎么调参都调不到理想的效果,那么就需要大量消耗时间继续重复处理、筛选特征,直到模型达到理想的效果。 所以,特征工程是一件极其繁琐同时也极其重要的一件事情,至少暂用建模80%以上的时间,所以 需要以提升模型的性能和可解释性为目标,有耐心地、逻辑清晰地去做。 加油!

posted @ 2025-02-28 21:51  指尖下的世界  阅读(13)  评论(0)    收藏  举报