Kaggle Tabular Playground Series - Jan 2022 的baseline和日期特征处理

Kaggle 决定将他们每月的表格竞赛延续到 2022 年这对于我们来说是非常好的消息。并且也Kaggle 表示他们已经考虑大家的评论,所以我希望这意味着他们将不再使用庞大到使系统崩溃的数据集,这次1月的比赛数据集就不是很大。

在我看来,2022 年 1 月的竞赛问题是对涵盖几年时间的销售额的预测,这可以用机器学习构成一个时间序列。

我在下面的屏幕截图中包含了问题陈述的一部分,其中包含了和这项竞赛问题有关的代码

本篇文章我使用 HistGradientBoostingRegressor 进行测试。

首先要导入运行程序需要的库,numpy,Pandas,matplotlib 和 seaborn:-

然后我使用 Pandas 读取csv 并将它们转换为df

我使用 seaborn 来分析目标,[‘num_sold’]是我们需要预测销售额。当我分析它时,可以看到它是偏斜的,并且有一些异常值:-

然后我决定删除异常值,希望这样预测会有所改善。下面屏幕截图中的代码是我用来删除异常值的代码。虽然在这篇文章中没有记录,但我后来将乘数改为 2.25 而不是 1.5,并发现预测有小幅改进:-

完整文章

Kaggle Tabular Playground Series - Jan 2022 的baseline和日期特征处理

posted @ 2022-01-07 09:38  deephub  阅读(94)  评论(0编辑  收藏  举报