模型2汇率的数据预处理环节
数据来源:中国银行官网
数据项:货币名称【欧元】、汇率、时间
数据预处理围绕四个方面展开:重复值、异常值、归一化、缺失值
由于数据来源于官方网站,本身不存在缺失值及异常值,通过观察样本数据可知,数据的波动范围在7.800~8.000之间【数据保存三位小数】,波动范围较小,,所以不需要进行缺失值、异常值及归一化处理。
【待思考】数据要不要进行重复值处理???【官网一天大概更新20次汇率,本身就有重复项,如果进行重复值处理,目的何在???】
关于测试集和训练集的划分:参考同类型论文【基于改进粒子群算法-高斯过程回归模型的天然橡胶期货价格预测研究、基于混合深度学习的股票价格指数滑窗预测】,训练集和测试集的比例大概为3:1,于是我将2024年人民币兑欧元汇率数据,按照月份划分训练集和测试集,1——9月为训练集【大概3万多条】,10——12为测试集【大概1万多条】。

查看上述两篇论文,他们在数据预处理环节,都用到了滑窗法:

还有就是关于模型的评价指标:


浙公网安备 33010602011771号