随笔分类 - 特征工程
摘要:时间对样本的的影响 背景 数据挖掘方面不同于CV算法,产生的原始数据量非常大,有很多表都是以di结尾的增量表,每天都会更新,这就导致了数据“产生的时间点”,以及模型”预测的时间点“,样本”标签指定的时间“都即为重要,如果不注意就会出现很多问题,由于这段时间工作上遇到了时间相关的问题,所以写一些记录。
阅读全文
摘要:熵 熵的本质是一个系统“内在的混乱程度”,是物理学的概念。 在信息论中,信息熵可以有以下两种理解方式 表征事物的不确定性 表征事件的信息量 事件与概率 先来举个例子,理解事件与概率之间的关系 猜小球事件 有一个不透明的袋子,其中有四种数量相等的小球,A,B,C,D, 现在,拿出一个小球,事件$P{拿
阅读全文

浙公网安备 33010602011771号