随笔分类 -  比赛学习

摘要:https://zhuanlan.zhihu.com/p/57550039 https://mp.weixin.qq.com/s/MUCAuOUrqk29jYH0g6qrEA 阅读全文
posted @ 2021-07-06 13:48 光彩照人 阅读(950) 评论(0) 推荐(0) 编辑
摘要:1.衍生方式一 阅读全文
posted @ 2018-12-27 22:57 光彩照人 阅读(879) 评论(0) 推荐(0) 编辑
摘要:1.dataFrame中groupby后变成MultiIndex型的series 阅读全文
posted @ 2018-12-26 16:15 光彩照人 阅读(1258) 评论(0) 推荐(0) 编辑
摘要:1.DataFrame中某一列的值衍生为新的特征 2.分组统计,选出同一USRID下该变量中出现次数最多的值项 3.衍生出某天是否发生的ont-hot新特征 4.查看用户一共停留在APP上多少秒,共有几天看了APP 阅读全文
posted @ 2018-06-26 16:41 光彩照人 阅读(612) 评论(0) 推荐(0) 编辑
摘要:一、安装 pip install hyperopt 二、说明 Hyperopt提供了一个优化接口,这个接口接受一个评估函数和参数空间,能计算出参数空间内的一个点的损失函数值。用户还要指定空间内参数的分布情况。 Hyheropt四个重要的因素:指定需要最小化的函数,搜索的空间,采样的数据集(trail 阅读全文
posted @ 2017-07-12 16:38 光彩照人 阅读(14249) 评论(0) 推荐(0) 编辑
摘要:作者:吴晓军 原文:https://zhuanlan.zhihu.com/p/27424282 模型验证(Validation) 在Test Data的标签未知的情况下,我们需要自己构造测试数据来验证模型的泛化能力,因此把Train Data分割成Train Set和Valid Set两部分,Tra 阅读全文
posted @ 2017-07-11 14:26 光彩照人 阅读(2814) 评论(0) 推荐(1) 编辑
摘要:Stacking是用新的模型(次学习器)去学习怎么组合那些基学习器,它的思想源自于Stacked Generalization这篇论文。如果把Bagging看作是多个基分类器的线性组合,那么Stacking就是多个基分类器的非线性组合。Stacking可以很灵活,它可以将学习器一层一层地堆砌起来。 阅读全文
posted @ 2017-07-10 10:15 光彩照人 阅读(5442) 评论(0) 推荐(0) 编辑
摘要:第一次真正意义上参加kaggle比赛,都是工作之余看看别人的kernel,然后整理整理自己的分析代码。 总体来说,本次比赛对我而言更像一个入门比赛,更多的是走走kaggle比赛的整个流程,看看高手们都是怎么分析解决问题的。一边学习技术、理论知识、分析问题的思路,一边研究比赛题目。结果不是最重要的,最 阅读全文
posted @ 2017-07-08 15:11 光彩照人 阅读(730) 评论(0) 推荐(0) 编辑
摘要:一、什么是特征工程? "Feature engineering is the process of transforming raw data into features that better represent the underlying problem to the predictive m 阅读全文
posted @ 2017-06-06 09:37 光彩照人 阅读(5857) 评论(0) 推荐(0) 编辑
摘要:一、比赛概述 不同比赛有不同的任务,分类、回归、推荐、排序等。比赛开始后训练集和测试集就会开放下载。 比赛通常持续 2 ~ 3 个月,每个队伍每天可以提交的次数有限,通常为 5 次。 比赛结束前一周是一个 Deadline,在这之后不能再组队,也不能再新加入比赛。所以想要参加比赛请务必在这一 Dea 阅读全文
posted @ 2017-06-05 11:01 光彩照人 阅读(1819) 评论(0) 推荐(1) 编辑
摘要:原作者:陈成龙 简介 Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始,陆续参加了多场 Kaggle上面举办的比赛,相继获得了 CrowdFlower 搜索相关性比赛第一名(1326支队伍)和 HomeDepot  阅读全文
posted @ 2017-06-05 10:08 光彩照人 阅读(1462) 评论(0) 推荐(0) 编辑
摘要:一、模型与特征哪个重要? 参与Sberbank Russian Housing Market比赛,一开始使用sklearn的岭回归函数Ridge(),残差值一直是0.37左右,然后同样的特征又使用了XGboost,残差值降到了0.34左右,提高的还是挺显著的。 但是另外一些参赛选手,使用XGboos 阅读全文
posted @ 2017-05-19 14:13 光彩照人 阅读(293) 评论(0) 推荐(0) 编辑