模型训练注意事项

1.问:xgboost训练完成后,在训练样本上的auc和ks,能够直接得到吗?还需要用训练好的模型对训练数据在predit一次吗?因为它之前训练好了,它存了预测值了吗?

答:需要用训练好的模型对训练数据在predit一次

理解:即便是训练完最后一棵树,实际上在这个过程中最后一个模型(最优模型)并没有对所有训练样本进行预测过,所以就跟对待test数据一样,都需要重新再predict。

 

2.问:在用svm的时候,多类别变量做完one-hot编码,理论上来讲,还用和数值型变量一块做标准化吗?还是直接放进模型?

答:不需要了

问:这种需不需要做标准化该怎么从算法的原理上理解呢?像svm这种根据距离推出的算法,理论上要求特征是在一个距离维度上的,如果数值型变量转化成了均值为0方差为1,而哑变量不标准化的话,它是不满足均值为0方差为1的,这时怎么从算法原理上来解释这个问题呢?是说从原理上就不需要,还是做不做都可以且差别不大?

答:一般情况只需要数值取值范围较小即可,不需要考虑这么细的。

 

3.问:’商品销售额回归分析‘中,前面做了大量的特征生成,1.这些工作可以用机器自动生成吗?2.如果不能自动生成,对于树模型可以通过算法本身搜寻达到自动生成了这些特征的效果吗?3.如果后面用深度学习,所有前面的特征生成的工作,就不用做了?

答:结构化的数据大部分还得手动去做,自动生成的效果还不行的,基本就是靠实验来对比。

posted on 2020-05-20 20:19  静静的白桦林_andy  阅读(435)  评论(0)    收藏  举报

导航