机器学习：02篇-入门lightgbm，初步了解特征工程！！！（持续更新ing...)

Task 02:

1 引言

　　Task 02其实主要介绍了什么是lightgbm以及什么是特征工程，我同样在BML colab上运行了代码，并且提交获得了分数，从得分情况来看，应该是其中有地方出现了问题，评分结果反倒不如Baseline模型好，研究之后会持续更新博客，解释一下为什么会出现这种情况，其实代码跑的时候有提示说卡在了500 rounds，打算看看是不是critical point的问题，再进行调整。

2 特征工程的重要性

　　特征工程是指对原始数据进行加工、转换和选择，以创建更能体现问题本质的特征，从而提高机器学习模型的性能。原始数据中的特征可能过多、过少、冗余或不够表达问题，特征工程的目标就是提取出有意义、有价值的特征。

3 什么是lightgbm和特征工程？

　　Baseline模型是一种基础的预测模型，通常用作比较其他更复杂模型性能的参考点。尽管它们通常比较简单，但在许多情况下，它们可以提供相当准确的预测。

4 利用LightGBM和特征工程进一步优化预测效果

　　1. 数据可视化

　　首先，我们需要对数据进行可视化分析。通过绘制柱状图和折线图，可以直观地了解数据的分布和趋势。

　　2. 构建特征

　　使用时间序列数据构建历史平移特征和窗口统计特征是常见的方法。通过观察数据并结合专业背景知识，可以改善特征或构建新的特征。

　　3. 使用LightGBM进行训练和预测

　　LightGBM是一种基于决策树的梯度提升框架，具有训练效果好、不易过拟合等优点。

　　使用的基本步骤，其实和01篇介绍的Baseline模型的训练步骤差不多，只不过多了一步特征提取而已，这一步特征提取是很重要的，之前我在进行通过Facebook统计的美国COVID-19的患病率进行预测未来数据的时候，当features全部选择的时候，它的得分情况还不如从中挑选一些比如mental health等相关特征训练出的模型performance要好。

　　　　　　数据预处理：标准化处理数值数据。

　　　　　　特征提取：从数据中提取有用的特征。

　　　　　　模型训练：使用LightGBM进行模型训练。

　　　　　　结果预测：使用训练好的模型进行预测。

　　4. 进阶思路

　　解决回归预测问题的常见思路包括使用机器学习模型（如LightGBM、XGBoost）或深度学习模型（如神经网络）。在模型搭建上，需要自己构建模型结构，并对数值数据进行标准化处理。

5 总结（以个人构建的思维导图的形式呈现）

本人初学，如有错误，请多多指教！！！我会及时修正更改

posted @ 2024-07-15 23:46 ITcoder555 阅读(48) 评论(0) 收藏举报

刷新页面返回顶部

ITcoder123