时间又不会为我赖着不走, 干嘛停下来为了选择头疼

编程匠心者

厚德 求真 励学 笃行
诚朴 雄伟 励学 敦行

文章分类 -  Machine Learning

摘要:高维稀疏特征的时候,lr 的效果会比 gbdt 好,为什么? 这个问题我也是思考了好久,在平时的项目中也遇到了不少 case,确实高维稀疏特征的时候,使用 gbdt 很容易过拟合。 但是还是不知道为啥,后来深入思考了一下模型的特点,发现了一些有趣的地方。 假设有1w 个样本, y类别0和1,100维 阅读全文
posted @ 2021-12-07 11:07 编程匠心者 阅读(301) 评论(0) 推荐(1)
摘要:转载: "Python利用pandas/sklearn处理类别型特征;手动分段与离散化处理连续型特征" "连续属性离散化与sklearn.preprocessing.KBinsDiscretizer" 第一篇使用numpy对连续数据分桶,然后使用sklearn的OneHotEncoder编码为One 阅读全文
posted @ 2020-04-06 17:30 编程匠心者 阅读(2581) 评论(0) 推荐(0)
摘要:转载:蓄水池采样算法 阅读全文
posted @ 2019-08-14 12:06 编程匠心者 阅读(148) 评论(0) 推荐(0)
摘要:转载自:https://zhuanlan.zhihu.com/p/48371593近邻成分分析(Neighbourhood Component Analysis,NCA)是由Jacob Goldberger和Geoff Hinton等大佬们在2005年发表的一项工作,属于度量学习(Metric Le 阅读全文
posted @ 2019-04-04 09:56 编程匠心者 阅读(4036) 评论(0) 推荐(1)