Loading

Datawhale 春训营新能源预测(数据处理)

[!NOTE] 数据背景介绍
数据来自 比赛举办方: 主要数据是 三个天气数据源nwp1 nwp2 nwp3,以及历史发电功率数据

新能源预测(数据处理)

1. NWP 数据

1.1 nwp数据

nwp 数据 -- NWP代表数值天气预报(Numerical Weather Prediction),通过python 第三方库netCDF4 来对nwp 数据进行读取,并转换为方便处理的csv 格式。

结构示例:


🔢 维度 Dimensions
------------------------------
time: size = 1
channel: size = 8
lead_time: size = 24
lat: size = 11
lon: size = 11

📊 变量 Variables
------------------------------
time: shape = (1,), dtype = int64
channel: shape = (8,), dtype = <class 'str'>
data: shape = (1, 24, 8, 11, 11), dtype = float64
lat: shape = (11,), dtype = int64
lon: shape = (11,), dtype = int64
lead_time: shape = (24,), dtype = int64
  dimensions: ('lead_time',)
📅 原始 time 值: [0]
⏱ 原始 lead_time 值: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23]
📆 解析后的起始时间: 2024-01-01 16:00:00

各个数据源 chanel 包含的天气信息

[!NOTE] 官方解释
比赛输入数据来自三个不同的气象预报数据,数据格式为nc,共8个变量,需要注意气象源NWP_2的变量与另外两个稍有不同。气象变量说明见下文。每个文件是第二天北京时间0点开始的未来24小时气象预报,时间间隔1小时,文件名的日期表示预报发布日期,如20240101.nc是2024年1月1日发布的,对1月2日的预报。每个输入文件有5个维度,time,channel,hour,lat,lon。
time表示数据第一个时刻,为世界时;channel为变量,共8维;hour为从起始时间到预报时间的时间间隔,数值为0~23;lat为纬度,数值从小到大为从北向南排列;lon为经度,数值从小到大为从西向东排列。这里经纬度数值仅代表相对关系,中心点为离场站最近的点。
参赛队伍可以不使用全部气象源的全部变量做为输入。

怎么理解这个解释嘞?

数据首先是时间序列(0-23),每个小时的每个特征 有11 * 11 的分布,例如下边这样

Feature Table

变量名称 NWP 模型 1 NWP 模型 2 NWP 模型 3 中文解释
ghi ✔️ ✔️ ✔️ 全球水平辐照度
poai ✔️ ✔️ ✔️ 平面总辐射
sp ✔️ ✔️ 地表温度
msl ✔️ 平均海平面气压
t2m ✔️ ✔️ ✔️ 2米高度温度
tcc ✔️ ✔️ ✔️ 总云量
tp ✔️ ✔️ ✔️ 降水量
u100 ✔️ ✔️ ✔️ 100米高度处的东风分量
v100 ✔️ ✔️ ✔️ 100米高度处的北风分量

✔️ 表示该模型包含此变量。

1.2 处理nwp数据

从每个气象预报文件(格式为 DATE.nc)中提取24小时的预报数据,并对每个小时内的8个气象变量进行空间平均计算(即在经纬度维度上取平均值)。最终生成一个形状为 (24, 8) 的二维数组 daily_data,表示每天24小时、每个小时中8个变量的空间平均值。

完成前置数据处理后,依次进行以下操作:

  1. 检查缺失值(NaN)
  2. 归一化处理(Normalization)
  3. 将结果保存为CSV文件
  4. 特征工程
    • 通过u/v100 计算wind_speed ,并作为新的feature 添加到数据中。
    • 由于每个站点的发电功率对每个feature的依赖不同,因此针对不同站点其用于训练的特征不同。
      • 通过baseline来获取不同站点的feature importance 信息,根据importance信息来筛选feature 见Table 1。同时计算三个数据源中ghi,poai,wind_speed的平均值保存为train_means.csv 和 test_means.csv。

Table 1 :Features used for each station.

Station Features
1 wind_speed, wind_direction
2 wind_speed, wind_direction, poai, t2m, tp, tcc, sp
3 wind_direction, t2m, wind_speed, tcc, tp
4 wind_speed, wind_direction, poai, t2m, tp, tcc, sp
5 wind_speed, wind_direction, poai, t2m, tp, tcc, sp
6 ghi
7 ghi
8 ghi, time, wind_direction, t2m, tp
9 poai
10 wind_speed, wind_direction, poai, t2m, tp, tcc, sp

2. Target数据

总共10 个target 数据,是训练集对应的发电功率数据。

其中每个站点的target数据,是该站点2024 年的发电功率数据,其中数据的统计步长为15分钟,共35136 条数据。

2.1 数据处理:

  • 清除异常数据,对nan数据进行线性插值处理。
  • 将其数据步长更改为1h。(四个只保留整点数据)
  • 保存为csv文件。
posted @ 2025-10-23 09:34  GIPV  阅读(5)  评论(0)    收藏  举报