Datawhale AI春训营 新能源赛道 学习笔记
Datawhale AI春训营 新能源赛道学习笔记
数据学习
数据内容介绍,数据包括两部分:
- 气象训练集以及对应每个发电站的2024年一年的power数据
- 气象测试集,没有对应的power 数据,其预测出的结果作为比赛提交结果。
测试集分析
气象数据数据 包含三个数据源: nwp1 nwp2 nwp3
数据集时间覆盖范围: 2024年1月1日到 2024年12月30日
变量 | 描述 | 单位 | 包含数据源 |
---|---|---|---|
u100 |
100米高度纬向风 | m/s(米/秒) | all |
v100 |
100米高度经向风 | m/s(米/秒) | all |
t2m |
2米气温 | K(开尔文) | all |
tp |
总降水量 | m(米) | all |
tcc |
总云量 | (0 - 1) | all |
sp |
地面气压 | Pa(帕斯卡) | all |
poai |
光伏面板辐照度 | W/m²(瓦/平方米) | all |
ghi |
水平面总辐照度 | W/m²(瓦/平方米) | all |
msl |
海平面气压 | Pa(帕斯卡) | nwp3 |
特征工程: 使用u100 和 v100 合成 wind_speed(m/s) |
分析相关性: 使用baseline 模型训练,不同类型的发电站(风力和光伏),与发电功率相关的特征不同,进一步风力发电和光伏发电依赖的特征,通过 importance 筛选信息。
- station 1-5 使用气象特征 wind_speed
- station 6-10 使用气象特征 poai
算法LGBM
LGBM 的理论学习
![[Pasted image 20250418163928.png]]
lightGBM<
![[Pasted image 20250418164453.png|250]]
max_depth : 6-10
![[Pasted image 20250418164629.png]]
过程
训练对比不同nwp 数据源的准确度
准确的排名:
Try1
- 运行BaseLine: 通过Lgbt importance 筛选特征后进行训练,分数上升0.1
Try2:
Try3:
尝试你结合不同的nwp 数据进行训练