2018年10月25日

可视化---seaborn

摘要: 变量说明 x,y,hue 数据集变量 变量名 date 数据集 数据集名 row,col 更多分类变量进行平铺显示 变量名 col_wrap 每行的最高平铺数 整数 estimator 在每个分类中进行矢量到标量的映射 矢量 ci 置信区间 浮点数或None n_boot 计算置信区间时使用的引导迭 阅读全文

posted @ 2018-10-25 18:39 布衣小工 阅读(170) 评论(0) 推荐(0) 编辑

可视化---matplotlib

摘要: 中文乱码 多画布 折线图 多条线 柱状图 直方图 柱状图VS直方图 区别: 1.直方图展示数据的分布,柱状图比较数据的大小。 2.直方图X轴为定量数据,柱状图X轴为分类数据。 3.直方图柱子无间隔,柱状图柱子有间隔 散点图 箱线图 阅读全文

posted @ 2018-10-25 17:09 布衣小工 阅读(211) 评论(0) 推荐(0) 编辑

数据预处理--数据选择

摘要: 筛选空值 求均值 数据透视表 排序 列名处理 按列类型过滤 查看类型变量类别个数 类型转换 数据筛选 多个dataframe合并处理 多个列合并 阅读全文

posted @ 2018-10-25 16:13 布衣小工 阅读(275) 评论(0) 推荐(0) 编辑

数据预处理--样本选择、交叉验证

摘要: 1.样本下采样选择 交叉验证选择最优参数: 绘制混淆矩阵 查看不同阈值对应召回率 阅读全文

posted @ 2018-10-25 15:28 布衣小工 阅读(1104) 评论(0) 推荐(0) 编辑

模型评估---交叉验证

摘要: 1.原始交叉验证 2.cross_validation交叉验证 交叉验证中混合模型分类 阅读全文

posted @ 2018-10-25 11:29 布衣小工 阅读(292) 评论(0) 推荐(0) 编辑

数据预处理--缺失值处理

摘要: 用中位数填充缺失值 titanic["Age"] = titanic["Age"].fillna(titanic["Age"].median()) 用固定值填充 titanic["Embarked"] = titanic["Embarked"].fillna('S') 阅读全文

posted @ 2018-10-25 11:02 布衣小工 阅读(166) 评论(0) 推荐(0) 编辑

数据预处理--标准化/归一化

摘要: 1. fit--transform--fit_transform区别 fit原义指的是使适合的意思,其实有点train的含义但是和train不同的是,它并不是一个训练的过程,而是一个适配的过程,过程都是定死的,最后只是得到了一个统一的转换的规则模型。 transform:是将数据进行转换,比如数据的 阅读全文

posted @ 2018-10-25 10:55 布衣小工 阅读(1130) 评论(0) 推荐(0) 编辑

数据预处理--离散变量处理

摘要: 离散变量标签处理 1.类别变量映射为原始变量 原始数据 1.1 方法1:原始处理方法(将类别变量映射为数值变量) 原始方法2: 1.2 方法2:使用scikit LabelEncoder处理标签变量映射 2. 类别变量热编码 2.1 方法1:OneHotEncoder(OneHotEncoder 必 阅读全文

posted @ 2018-10-25 09:53 布衣小工 阅读(1714) 评论(0) 推荐(0) 编辑

导航