Loading

Datawhale AI春训营 新能源赛道 学习笔记

Datawhale AI春训营 新能源赛道学习笔记

数据学习

数据内容介绍,数据包括两部分:

  1. 气象训练集以及对应每个发电站的2024年一年的power数据
  2. 气象测试集,没有对应的power 数据,其预测出的结果作为比赛提交结果。

测试集分析

气象数据数据 包含三个数据源: nwp1 nwp2 nwp3
数据集时间覆盖范围: 2024年1月1日到 2024年12月30日

变量 描述 单位 包含数据源
u100 100米高度纬向风 m/s(米/秒) all
v100 100米高度经向风 m/s(米/秒) all
t2m 2米气温 K(开尔文) all
tp 总降水量 m(米) all
tcc 总云量 (0 - 1) all
sp 地面气压 Pa(帕斯卡) all
poai 光伏面板辐照度 W/m²(瓦/平方米) all
ghi 水平面总辐照度 W/m²(瓦/平方米) all
msl 海平面气压 Pa(帕斯卡) nwp3
特征工程: 使用u100 和 v100 合成 wind_speed(m/s)

分析相关性: 使用baseline 模型训练,不同类型的发电站(风力和光伏),与发电功率相关的特征不同,进一步风力发电和光伏发电依赖的特征,通过 importance 筛选信息。

  • station 1-5 使用气象特征 wind_speed
  • station 6-10 使用气象特征 poai

算法LGBM

LGBM 的理论学习

![[Pasted image 20250418163928.png]]

lightGBM<
![[Pasted image 20250418164453.png|250]]

max_depth : 6-10

![[Pasted image 20250418164629.png]]

过程

训练对比不同nwp 数据源的准确度
准确的排名:

Try1

  1. 运行BaseLine: 通过Lgbt importance 筛选特征后进行训练,分数上升0.1

Try2:

Try3:

 尝试你结合不同的nwp 数据进行训练
posted @ 2025-04-18 22:46  GIPV  阅读(58)  评论(0)    收藏  举报