Datawhale AI春训营

还不太会拉取数据集，不妨先学会拉取数据集，torch和anaconda部分文件产生冲突，已解决冲突

nc文件中中某个变量的形状(13, 181, 360)

给出的训练数据存储在.nc的文件中，目标数据的特征被以张量的形式存储在.pt的文件中

pt文件的形状torch.Size([1, 2, 117, 181, 360])

正文：

数据相关：

数据认识：

花了一天的时间刚把数据认准。

训练集和测试集的存储形式有稍微的差别，测试集以.nc文件的形式存储在文件夹中，其中九个文件夹代表九个变量，每个文件夹中的.nc文件的数据集的存储中，前几项 number，valid_time，pressure_level， latitude，longitude，expver。

分别代表

1编号

2每六个小时的有效时间点

3是181个纬度点

4是360个经度点

最后一个是核心变量其形状是(4, 13, 181, 360)

核心变量也就是官网中介绍的几个变量。其中我们要预测的内容也包含在这些东西中

而我们的测试集是用.pt（张量的形式进行存储的点）形状是([1, 2, 117, 181, 360])这样的，1代表编号，2代表给出的两个时刻，117是变量个数，181是纬度，360是精度

处理训练数据，我们把训练数据由nc文件处理为一个形状为[1, 4, 117, 181, 360]的.pt文件，我们需要输出的是形状为1 x 12 x 30 x 46 x 71的pt文件，其中1代表编号，12代表未来3天的6小时区间（3*4），46是纬度55 ~ 10°N，71是经度70 ~ 140°E，46是我们需要预测的一系列变量

[t200, t500, t700, t850, t1000, q200,q500, q700, q850, q1000, ciwc200,ciwc500, ciwc700, ciwc850, ciwc1000, clwc200, clwc500, clwc700, clwc850, clwc1000, crwc200,crwc500, crwc700, crwc850, crwc1000, cswc200,cswc500, cswc700, cswc850, cswc1000]是我们需要预测的变量和对应的大气层

。

我们改变一下数据的处理方式，因为如果把第一天的数据作为参数的话，那么后三天的某些变量会变成我们需要label，在标准化和归一化处理的时候会比较麻烦，所以我们干脆把我们需要的label提到对应数据的后面，这样怎么处理数据对后面就没有影响了。

数据清洗：

这次的数据只检查了缺失值，没有查看异常值。

模型方面:

这次的训练集数据量我选择了一年进行本地观察，也就是365天，一共有四年，也就是最后的数据集最多可以达到365*4 - 3的量词，每个数据的数据量相当庞大高维数据的情况下，我想可以尝试利用卷积神经网络，引入注意力机制加速训练，损失函数的选择均方差，绝对误差等等，尝试尝试吧。

posted @ 2025-04-21 21:37 兔兔求放过鸭阅读(52) 评论(0) 收藏举报

刷新页面返回顶部

zonghongqi

Datawhale AI春训营

正文：

数据相关：

数据认识：

数据清洗：

模型方面:

公告

zonghongqi

Datawhale AI春训营

正文 ：

数据相关：

数据认识：

数据清洗：

模型方面:

公告

正文：