Datawhale AI春训营
还不太会拉取数据集,不妨先学会拉取数据集,torch和anaconda部分文件产生冲突,已解决冲突
nc文件中中某个变量的形状(13, 181, 360)
给出的训练数据存储在.nc的文件中,目标数据的特征被以张量的形式存储在.pt的文件中
pt文件的形状torch.Size([1, 2, 117, 181, 360])
正文 :
数据相关:
数据认识:
花了一天的时间刚把数据认准。
训练集和测试集的存储形式有稍微的差别,测试集以.nc文件的形式存储在文件夹中,其中九个文件夹代表九个变量,每个文件夹中的.nc文件的数据集的存储中,前几项 number,valid_time,pressure_level, latitude,longitude,expver。
分别代表
1编号
2每六个小时的有效时间点
3是181个纬度点
4是360个经度点
最后一个是核心变量其形状是(4, 13, 181, 360)
核心变量也就是官网中介绍的几个变量。其中我们要预测的内容也包含在这些东西中
而我们的测试集是用.pt(张量的形式进行存储的点)形状是([1, 2, 117, 181, 360])这样的,1代表编号,2代表给出的两个时刻,117是变量个数,181是纬度,360是精度
处理训练数据,我们把训练数据由nc文件处理为一个形状为[1, 4, 117, 181, 360]的.pt文件,我们需要输出的是形状为1 x 12 x 30 x 46 x 71的pt文件,其中1代表编号,12代表未来3天的6小时区间(3*4),46是纬度55 ~ 10°N,71是经度70 ~ 140°E,46是我们需要预测的一系列变量
[t200
, t500
, t700
, t850
, t1000
, q200
,q500
, q700
, q850
, q1000
, ciwc200
,ciwc500
, ciwc700
, ciwc850
, ciwc1000
, clwc200
, clwc500
, clwc700
, clwc850
, clwc1000
, crwc200
,crwc500
, crwc700
, crwc850
, crwc1000
, cswc200
,cswc500
, cswc700
, cswc850
, cswc1000
]是我们需要预测的变量和对应的大气层
。
我们改变一下数据的处理方式,因为如果把第一天的数据作为参数的话,那么后三天的某些变量会变成我们需要label,在标准化和归一化处理的时候会比较麻烦,所以我们干脆把我们需要的label提到对应数据的后面,这样怎么处理数据对后面就没有影响了。
数据清洗:
这次的数据只检查了缺失值,没有查看异常值。
模型方面:
这次的训练集数据量我选择了一年进行本地观察,也就是365天,一共有四年,也就是最后的数据集最多可以达到365*4 - 3的量词,每个数据的数据量相当庞大高维数据的情况下,我想可以尝试利用卷积神经网络,引入注意力机制加速训练,损失函数的选择均方差,绝对误差等等,尝试尝试吧。