机器学习:02篇-入门lightgbm,初步了解特征工程!!!(持续更新ing...)

Task 02: 

1 引言

  Task 02其实主要介绍了什么是lightgbm以及什么是特征工程,我同样在BML colab上运行了代码,并且提交获得了分数,从得分情况来看,应该是其中有地方出现了问题,评分结果反倒不如Baseline模型好,研究之后会持续更新博客,解释一下为什么会出现这种情况,其实代码跑的时候有提示说卡在了500 rounds,打算看看是不是critical point的问题,再进行调整。

2 特征工程的重要性

  特征工程是指对原始数据进行加工、转换和选择,以创建更能体现问题本质的特征,从而提高机器学习模型的性能。原始数据中的特征可能过多、过少、冗余或不够表达问题,特征工程的目标就是提取出有意义、有价值的特征。

3 什么是lightgbm和特征工程?

  Baseline模型是一种基础的预测模型,通常用作比较其他更复杂模型性能的参考点。尽管它们通常比较简单,但在许多情况下,它们可以提供相当准确的预测。

4 利用LightGBM和特征工程进一步优化预测效果

  1. 数据可视化

  首先,我们需要对数据进行可视化分析。通过绘制柱状图和折线图,可以直观地了解数据的分布和趋势。

  2. 构建特征

  使用时间序列数据构建历史平移特征和窗口统计特征是常见的方法。通过观察数据并结合专业背景知识,可以改善特征或构建新的特征。

  3. 使用LightGBM进行训练和预测

  LightGBM是一种基于决策树的梯度提升框架,具有训练效果好、不易过拟合等优点。

  使用的基本步骤,其实和01篇介绍的Baseline模型的训练步骤差不多,只不过多了一步特征提取而已,这一步特征提取是很重要的,之前我在进行通过Facebook统计的美国COVID-19的患病率进行预测未来数据的时候,当features全部选择的时候,它的得分情况还不如从中挑选一些比如mental health等相关特征训练出的模型performance要好。

      数据预处理:标准化处理数值数据。

      特征提取:从数据中提取有用的特征。

      模型训练:使用LightGBM进行模型训练。

      结果预测:使用训练好的模型进行预测。

 

  4. 进阶思路

  解决回归预测问题的常见思路包括使用机器学习模型(如LightGBM、XGBoost)或深度学习模型(如神经网络)。在模型搭建上,需要自己构建模型结构,并对数值数据进行标准化处理。

 

5 总结(以个人构建的思维导图的形式呈现)

 

本人初学,如有错误,请多多指教!!!我会及时修正更改

 

posted @ 2024-07-15 23:46  ITcoder555  阅读(43)  评论(0)    收藏  举报