//目录

Datawhale AI春训营

还不太会拉取数据集,不妨先学会拉取数据集,torch和anaconda部分文件产生冲突,已解决冲突

nc文件中中某个变量的形状(13, 181, 360)

给出的训练数据存储在.nc的文件中,目标数据的特征被以张量的形式存储在.pt的文件中

pt文件的形状torch.Size([1, 2, 117, 181, 360])

正文 :

数据相关:

数据认识:

花了一天的时间刚把数据认准。

训练集和测试集的存储形式有稍微的差别,测试集以.nc文件的形式存储在文件夹中,其中九个文件夹代表九个变量,每个文件夹中的.nc文件的数据集的存储中,前几项 number,valid_time,pressure_level, latitude,longitude,expver。

分别代表

1编号

2每六个小时的有效时间点

3是181个纬度点

4是360个经度点

最后一个是核心变量其形状是(4, 13, 181, 360)

核心变量也就是官网中介绍的几个变量。其中我们要预测的内容也包含在这些东西中

而我们的测试集是用.pt(张量的形式进行存储的点)形状是([1, 2, 117, 181, 360])这样的,1代表编号,2代表给出的两个时刻,117是变量个数,181是纬度,360是精度

处理训练数据,我们把训练数据由nc文件处理为一个形状为[1, 4, 117, 181, 360]的.pt文件,我们需要输出的是形状为1 x 12 x 30 x 46 x 71的pt文件,其中1代表编号,12代表未来3天的6小时区间(3*4),46是纬度55 ~ 10°N,71是经度70 ~ 140°E,46是我们需要预测的一系列变量

[t200t500t700t850t1000q200,q500q700q850q1000ciwc200,ciwc500ciwc700ciwc850ciwc1000clwc200clwc500clwc700clwc850clwc1000crwc200,crwc500crwc700crwc850crwc1000cswc200,cswc500cswc700cswc850cswc1000]是我们需要预测的变量和对应的大气层

我们改变一下数据的处理方式,因为如果把第一天的数据作为参数的话,那么后三天的某些变量会变成我们需要label,在标准化和归一化处理的时候会比较麻烦,所以我们干脆把我们需要的label提到对应数据的后面,这样怎么处理数据对后面就没有影响了。

数据清洗:

这次的数据只检查了缺失值,没有查看异常值。

模型方面:

这次的训练集数据量我选择了一年进行本地观察,也就是365天,一共有四年,也就是最后的数据集最多可以达到365*4 - 3的量词,每个数据的数据量相当庞大高维数据的情况下,我想可以尝试利用卷积神经网络,引入注意力机制加速训练,损失函数的选择均方差,绝对误差等等,尝试尝试吧。

posted @ 2025-04-21 21:37  兔兔求放过鸭  阅读(52)  评论(0)    收藏  举报