数据挖掘笔记

数据挖掘笔记

变量的类型

分类变量

分类变量可以分为有序和无序

无序:无程度之间的差别,如男女

有序:如小,中,大

分类、有序、定量变量...你清楚你的变量类型吗?
https://zhuanlan.zhihu.com/p/26941279

无序可以直接用皮尔逊

有序就用斯皮尔曼相关系数计算关系

斯皮尔曼等级相关(Spearman’s correlation coefficient for ranked data) - python风控模型的文章 - 知乎
https://zhuanlan.zhihu.com/p/398215987

数据预处理

虚拟变量处理

原因:

分类的变量,非等距变量,比如一者是另一者的5倍,但是对结果的影响不一定是对前者的五倍,要改写为onehot编码。

参考:

  1. 什么是虚拟变量?怎么设置才正确?
  2. 用法
  3. 官方文档

实际用法:

ordinal_columns = ['floor', 'rating']
for col in ordinal_columns:
    dummies = pd.get_dummies(train[col], drop_first=False)
    dummies = dummies.add_prefix("{}#".format(col))
    train.drop(col, axis=1, inplace=True)
    train = train.join(dummies)

归一化处理

模型建立

划分训练集、测试集

要知道交叉验证是个什么东西

知乎-交叉验证详解

官方文档说明

posted @ 2022-02-17 21:35  dutrmp19  阅读(42)  评论(0)    收藏  举报