比赛学习 - 随笔分类 - 光彩照人

embedding向量的融合策略(blending)

摘要：https://zhuanlan.zhihu.com/p/57550039 https://mp.weixin.qq.com/s/MUCAuOUrqk29jYH0g6qrEA 阅读全文

posted @ 2021-07-06 13:48 光彩照人阅读(950) 评论(0) 推荐(0) 编辑

python衍生特征

摘要：1.衍生方式一阅读全文

posted @ 2018-12-27 22:57 光彩照人阅读(879) 评论(0) 推荐(0) 编辑

series中MultiIndex

摘要：1.dataFrame中groupby后变成MultiIndex型的series 阅读全文

posted @ 2018-12-26 16:15 光彩照人阅读(1258) 评论(0) 推荐(0) 编辑

DataFrame衍生新特征操作

摘要：1.DataFrame中某一列的值衍生为新的特征 2.分组统计，选出同一USRID下该变量中出现次数最多的值项 3.衍生出某天是否发生的ont-hot新特征 4.查看用户一共停留在APP上多少秒，共有几天看了APP 阅读全文

posted @ 2018-06-26 16:41 光彩照人阅读(612) 评论(0) 推荐(0) 编辑

python调参神器hyperopt

摘要：一、安装 pip install hyperopt 二、说明 Hyperopt提供了一个优化接口，这个接口接受一个评估函数和参数空间，能计算出参数空间内的一个点的损失函数值。用户还要指定空间内参数的分布情况。 Hyheropt四个重要的因素：指定需要最小化的函数，搜索的空间，采样的数据集(trail 阅读全文

posted @ 2017-07-12 16:38 光彩照人阅读(14249) 评论(0) 推荐(0) 编辑

模型验证与模型集成(Ensemble)

摘要：作者：吴晓军原文：https://zhuanlan.zhihu.com/p/27424282 模型验证(Validation) 在Test Data的标签未知的情况下，我们需要自己构造测试数据来验证模型的泛化能力，因此把Train Data分割成Train Set和Valid Set两部分，Tra 阅读全文

posted @ 2017-07-11 14:26 光彩照人阅读(2814) 评论(0) 推荐(1) 编辑

Kaggle机器学习之模型集成（stacking）

摘要：Stacking是用新的模型（次学习器）去学习怎么组合那些基学习器，它的思想源自于Stacked Generalization这篇论文。如果把Bagging看作是多个基分类器的线性组合，那么Stacking就是多个基分类器的非线性组合。Stacking可以很灵活，它可以将学习器一层一层地堆砌起来。阅读全文

posted @ 2017-07-10 10:15 光彩照人阅读(5442) 评论(0) 推荐(0) 编辑

Sberbank Russian Housing Market比赛总结

摘要：第一次真正意义上参加kaggle比赛，都是工作之余看看别人的kernel，然后整理整理自己的分析代码。总体来说，本次比赛对我而言更像一个入门比赛，更多的是走走kaggle比赛的整个流程，看看高手们都是怎么分析解决问题的。一边学习技术、理论知识、分析问题的思路，一边研究比赛题目。结果不是最重要的，最阅读全文

posted @ 2017-07-08 15:11 光彩照人阅读(730) 评论(0) 推荐(0) 编辑

特征工程(Feature Engineering)

摘要：一、什么是特征工程? "Feature engineering is the process of transforming raw data into features that better represent the underlying problem to the predictive m 阅读全文

posted @ 2017-06-06 09:37 光彩照人阅读(5857) 评论(0) 推荐(0) 编辑

kaggle比赛流程（转）

摘要：一、比赛概述不同比赛有不同的任务，分类、回归、推荐、排序等。比赛开始后训练集和测试集就会开放下载。比赛通常持续 2 ~ 3 个月，每个队伍每天可以提交的次数有限，通常为 5 次。比赛结束前一周是一个 Deadline，在这之后不能再组队，也不能再新加入比赛。所以想要参加比赛请务必在这一 Dea 阅读全文

posted @ 2017-06-05 11:01 光彩照人阅读(1819) 评论(0) 推荐(1) 编辑

Kaggle 数据挖掘比赛经验分享（转）

摘要：原作者：陈成龙简介 Kaggle 于 2010 年创立，专注数据科学，机器学习竞赛的举办，是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始，陆续参加了多场 Kaggle上面举办的比赛，相继获得了 CrowdFlower 搜索相关性比赛第一名（1326支队伍）和 HomeDepot 阅读全文

posted @ 2017-06-05 10:08 光彩照人阅读(1462) 评论(0) 推荐(0) 编辑

kaggle比赛之悟

摘要：一、模型与特征哪个重要？参与Sberbank Russian Housing Market比赛，一开始使用sklearn的岭回归函数Ridge(),残差值一直是0.37左右，然后同样的特征又使用了XGboost，残差值降到了0.34左右，提高的还是挺显著的。但是另外一些参赛选手，使用XGboos 阅读全文

posted @ 2017-05-19 14:13 光彩照人阅读(293) 评论(0) 推荐(0) 编辑

光彩照人

每一次挫折都是一次蜕变，挫折越大，蜕变越彻底！

随笔分类 - 比赛学习

公告