随笔分类 - 机器学习
摘要:这4种模型是集成模型中的提升树类别。(其他的类别还有装袋树(如RandomForest)、模型堆叠(stack)) 基于树模型的boosting方法是常用的,因为树模型相较于线性模型有更强的非线性拟合的能力。 其中xgboost、lightgbm在众多的数据竞赛中表现出优秀的预测能力。 (本文通俗地
阅读全文
摘要:类不平衡问题是分类任务中常遇到的问题,有的时候标签的真实数据分布本身就是不平衡的。如何改善类不平衡问题,参考《applied predictive modeling》p290-p300,给出以下方案。有2个角度:数据角度、模型训练角度 数据角度 1.调整样本权重 这种方法主要是在提升法为基础的算法中
阅读全文
摘要:硕士阶段做过用户聚类,聚类变量包括连续型和分类型。将连续型聚类变量的尺度放缩到 [0,1] 之间,分类型变量one-hot转化,然后聚类。你会发现问题:最后你在计算聚类中心的数值时,分类型变量在各个聚类中心间的差异较大,而连续型的变量差异较小。 为了弄明白原因,我进一步展开实验:首先,我用方差来量化
阅读全文

浙公网安备 33010602011771号