机器学习:02篇-入门lightgbm,初步了解特征工程!!!(持续更新ing...)
Task 02:
1 引言
Task 02其实主要介绍了什么是lightgbm以及什么是特征工程,我同样在BML colab上运行了代码,并且提交获得了分数,从得分情况来看,应该是其中有地方出现了问题,评分结果反倒不如Baseline模型好,研究之后会持续更新博客,解释一下为什么会出现这种情况,其实代码跑的时候有提示说卡在了500 rounds,打算看看是不是critical point的问题,再进行调整。
2 特征工程的重要性
特征工程是指对原始数据进行加工、转换和选择,以创建更能体现问题本质的特征,从而提高机器学习模型的性能。原始数据中的特征可能过多、过少、冗余或不够表达问题,特征工程的目标就是提取出有意义、有价值的特征。
3 什么是lightgbm和特征工程?
Baseline模型是一种基础的预测模型,通常用作比较其他更复杂模型性能的参考点。尽管它们通常比较简单,但在许多情况下,它们可以提供相当准确的预测。
4 利用LightGBM和特征工程进一步优化预测效果
1. 数据可视化
首先,我们需要对数据进行可视化分析。通过绘制柱状图和折线图,可以直观地了解数据的分布和趋势。
2. 构建特征
使用时间序列数据构建历史平移特征和窗口统计特征是常见的方法。通过观察数据并结合专业背景知识,可以改善特征或构建新的特征。
3. 使用LightGBM进行训练和预测
LightGBM是一种基于决策树的梯度提升框架,具有训练效果好、不易过拟合等优点。
使用的基本步骤,其实和01篇介绍的Baseline模型的训练步骤差不多,只不过多了一步特征提取而已,这一步特征提取是很重要的,之前我在进行通过Facebook统计的美国COVID-19的患病率进行预测未来数据的时候,当features全部选择的时候,它的得分情况还不如从中挑选一些比如mental health等相关特征训练出的模型performance要好。
数据预处理:标准化处理数值数据。
特征提取:从数据中提取有用的特征。
模型训练:使用LightGBM进行模型训练。
结果预测:使用训练好的模型进行预测。
4. 进阶思路
解决回归预测问题的常见思路包括使用机器学习模型(如LightGBM、XGBoost)或深度学习模型(如神经网络)。在模型搭建上,需要自己构建模型结构,并对数值数据进行标准化处理。
5 总结(以个人构建的思维导图的形式呈现)

本人初学,如有错误,请多多指教!!!我会及时修正更改

浙公网安备 33010602011771号