随笔分类 -  数据科学竞赛

关于数据科学竞赛的理论,技术,工具等
CTR入门知识
只有注册用户登录后才能阅读该文。

posted @ 2018-12-13 09:08 Frank_Allen 阅读(2) 评论(0) 推荐(0)

Google's wide & deep learning models
只有注册用户登录后才能阅读该文。

posted @ 2018-12-12 23:57 Frank_Allen 阅读(5) 评论(0) 推荐(0)

使用Keras来解决回归问题
只有注册用户登录后才能阅读该文。

posted @ 2018-12-10 23:46 Frank_Allen 阅读(6) 评论(0) 推荐(0)

数据科学竞赛中一些实用的技巧与经验总结
只有注册用户登录后才能阅读该文。

posted @ 2018-12-10 21:55 Frank_Allen 阅读(7) 评论(0) 推荐(0)

Tree-based Model 如何处理categorical variable
摘要:categorical variable 分为 order variale 和 non order variable,其中order variable直接使用sklearn.preprocess.LabelEncoder是最好的处理方法。对于order variable的处理方法主要在于是否使用on 阅读全文

posted @ 2018-12-10 16:05 Frank_Allen 阅读(475) 评论(0) 推荐(0)

Data Science Competition中的工具汇总
摘要:除了基础的pandas,scikit learn,numpy,matplotlib,seaborn以外 ( 1 ) category_encoders "github" 属于scikit learn compatible projects之一,下面是Binary Encoding和One hot E 阅读全文

posted @ 2018-12-08 23:02 Frank_Allen 阅读(299) 评论(0) 推荐(0)

What makes a good feature
摘要:从上图中我们可以得到的信息,首先在height低于20时,我们可以很高的概率预测这只狗是拉布拉多犬,而在height高于35时,我们也能相当有信心的预测这只狗是灰猎犬,但是当height位于这两者之间时,两种狗的概率很接近。因此height是一个有用的特征但是并不完美。 所以在机器学习中,我们总是需 阅读全文

posted @ 2018-12-08 18:26 Frank_Allen 阅读(239) 评论(0) 推荐(0)

导航