全部文章

文章分类 -  AI-4-2机器学习-数据处理&特征工程

摘要:在时间序列预测问题中,“滑窗法(Sliding Window)重构训练集” 是一种将连续时间序列数据转换为结构化训练样本的核心方法,其本质是通过 “滑动窗口” 提取历史数据与未来预测目标的对应关系,让模型能够学习时间序列的局部依赖和模式。以下从概念、原理、实例和作用四个方面详细解释: 一、核心概念: 阅读全文
posted @ 2025-08-16 15:00 指尖下的世界 阅读(61) 评论(0) 推荐(0)
摘要:场景说明:例如我们在处理游戏数据的时候,经常会有“队伍ID”,“每局游戏ID”等等这些“分组ID”特征,这些ID有两个特点: 存在大量重复 字符串类型(object类型),长度一般很长(比较占内存) 下面以《绝地求生》游戏数据为例,讲解分组ID数据的处理办法: # 导入数据基本处理阶段需要用到的ap 阅读全文
posted @ 2025-06-23 10:48 指尖下的世界 阅读(21) 评论(0) 推荐(0)
摘要:降维 1.1 定义 降维是指在某些限定条件下,降低随机变量(特征)个数,得到⼀组“不相关”主变量的过程 降低随机变量的个数 相关特征(correlated feature) 相对湿度与降⾬量之间的相关 等等 正是因为在进⾏训练的时候,我们都是使⽤特征进⾏学习。如果特征本身存在问题或者特征之间相关性较 阅读全文
posted @ 2025-06-10 12:01 指尖下的世界 阅读(11) 评论(0) 推荐(0)
摘要:类别不平衡数据集基本介绍 其实,在现实环境中,采集的数据(建模样本)往往是⽐例失衡的。⽐如⽹贷数据,逾期⼈数的⽐例是极低的(千分之⼏的⽐例);奢侈品消费⼈群鉴定等。 创造数据不均衡数据集 sklearn.datasets.make_classification() 是 scikit-learn 中用 阅读全文
posted @ 2025-06-03 11:49 指尖下的世界 阅读(77) 评论(0) 推荐(0)
摘要:重复值处理 预处理的前两步就是检查缺失值和重复值。如果希望检查准备的数据中是否存在重复的数据,则可以通过 Pandas中的 duplicated()方法完成。 接下来,通过 duplicated()方法对数据进行检测,只要有重复的数据就会映射为True,(由于数据量相对较多,所以在 Jupyter 阅读全文
posted @ 2025-04-27 17:23 指尖下的世界 阅读(364) 评论(0) 推荐(0)