摘要: 参照 http://www.pianshen.com/article/975848769/ 多谢作者哈哈 阅读全文
posted @ 2020-02-28 21:28 机器快点学习 阅读(2988) 评论(0) 推荐(0) 编辑
摘要: groupby[根据哪一列][ 对于那一列].进行计算 代码演示: direction:房子朝向 view_num:看房人数 floor:楼层 计算: A 看房人数最多的朝向 df.groupby(['direction'])['view_num'].sum() B 每个朝向的房子的数量 df.gr 阅读全文
posted @ 2020-02-28 16:12 机器快点学习 阅读(26443) 评论(0) 推荐(2) 编辑
摘要: 说明:目前 只记录了 过采样 和 欠采样 的代码部分 1 样本分布不均衡描述: 主要出现在与分类相关的建模问题上,不均衡指的是不同类别的样本量差异非常大。 样本量差距过大会影响到建模结果 2 出现的场景: 异常检测:如恶意刷单、黄牛,这些数据样本所占的比例通常是整体样本中很少的一部分 客户流失:大型 阅读全文
posted @ 2020-02-28 12:10 机器快点学习 阅读(4905) 评论(1) 推荐(0) 编辑
摘要: 数据中包含日期、时间类型的数据可以通过 pandas 的 to_datetime 转换成 datetime 类型,方便提取各种时间信息 1 将 object 类型数据转成 datetime64 1> 导入数据 import pandas as pd car_sales = pd.read_csv(' 阅读全文
posted @ 2020-02-28 10:34 机器快点学习 阅读(6546) 评论(0) 推荐(0) 编辑
摘要: 【分类数据的处理】 问题: 在数据建模过程中,很多算法或算法实现包无法直接处理非数值型的变量,如 KMeans 算法基于距离的相似度计算,而字符串则无法直接计算距离 如: 性别中的男和女 [0,1] [1,0] 用户的价值度分为高、中、低 处理方法: 将字符串表示的 分类特征 转换成 数值 类型(哑 阅读全文
posted @ 2020-02-28 09:20 机器快点学习 阅读(860) 评论(0) 推荐(0) 编辑