DataJam

随笔分类 -  数据清洗与处理

数据预处理与特征工程:降维算法
摘要:一、sklearn中的降维算法 sklearn中降维算法都被包括在模块decomposition中,这个模块本质是一个矩阵分解模块。矩阵分解可以用在降维,深度学习,聚类分析,数据预处理,低纬度特征学习,推荐系统,大数据分析等领域。 SVD和主成分分析PCA都属于矩阵分解算法中的入门算法,都是通过分解 阅读全文

posted @ 2021-06-09 16:22 DataJam 阅读(591) 评论(0) 推荐(0)

数据预处理与特征工程:处理连续型特征--二值化与分段
摘要:二值化与分段 思想:将连续变量转换为分类变量 1.sklearn.preprocessing.Binarizer 根据阈值将数据二值化(将特征值设置为0或1),用于处理连续型变量。大于阈值的值映射为1,而小于或等于阈 值的值映射为0。默认阈值为0时,特征中所有的正值都映射到1。二值化是对文本计数数据 阅读全文

posted @ 2021-06-09 10:05 DataJam

数据预处理与特征工程:哑变量(离散数据)
摘要:处理分类型特征:编码与哑变量 在机器学习中,大多数算法,譬如逻辑回归,支持向量机SVM,k近邻算法等都只能够处理数值型数据,不能处理 文字,在sklearn当中,除了专用来处理文字的算法,其他算法在fifit的时候全部要求输入数组或矩阵,也不能够导 入文字型数据(其实手写决策树和普斯贝叶斯可以处理文 阅读全文

posted @ 2021-06-09 09:46 DataJam

数据预处理与特征工程:缺失值处理
摘要:一、sklearn中的缺失值处理模块 使用模块:sklearn.impute.SimpleImputer 使用注意:sklearn中特征矩阵必须是二维的,所以对单列操作时候需要转换为二维均值,方法:shape(-1,1) 官网案例: 1 >>> import numpy as np 2 >>> fr 阅读全文

posted @ 2021-06-08 16:13 DataJam

数据预处理与特征工程:无纲量化
摘要:一、数据预处理与特征工程 1.数据预处理 数据预处理是从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程。 可能面对的问题有: 数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断。 数据的质量不行,有噪声,有异常,有缺失,数据出错,量纲不一,有重复,数据是偏态, 阅读全文

posted @ 2021-06-08 15:52 DataJam

五、离散化处理
摘要:1、离散化方法——等宽法 将数据的值域分成具有相同宽度的区间,区间的个数由数据本身的特点决定或者用户指定,与制作频率分布表类似。 pandas 提供了 cut 函数,可以进行连续型数据的等宽离散化,其基础语法格式如下。 pandas.cut(x,bins,right=True,labels=None 阅读全文

posted @ 2021-05-28 15:58 DataJam 阅读(1562) 评论(0) 推荐(0)

四、哑变量处理
摘要:(一)哑变量处理类别数据 1、哑变量处理 数据分析模型中有相当一部分的算法模型都要求输入的特征为数值型,但实际数据中特征的类型不一定只有数值型,还会存在相当一部分的类别型,这部分的特征需要经过哑变量处理才可以放入模型之中 2、可以使用 get_dummies 函数进行数据的哑变量转化Python 中 阅读全文

posted @ 2021-05-28 15:31 DataJam 阅读(2965) 评论(0) 推荐(0)

三、标准化数据
摘要:(一)离差标准化数据 离差表转化是对原始数据的一种线性变换,结果是将原始的数据映射到[0,1]区间之间,转换公式为: 其中 max 为样本数据的最大值,min 为样本数据的最小值,max-min 为极差。利差标准化保留了原始数据值之间的联系,是消除量纲和数据取值范围影响最简单的方法。离差标准化的特点 阅读全文

posted @ 2021-05-28 15:23 DataJam

二、检测与处理异常值
摘要:异常值是指数据中个别值的数值明显偏离其余的数值,有时也称为离群点,检测异常值 就是检验数据中是否有录入错误以及是否含有不合理的数据。 异常值的存在对数据分析十分危险,如果计算分析过程的数据有异常值,那么会对结果 会产生不良影响,从而导致分析结果产生偏差乃至错误。 比如在分析银行欺诈案例时,核心就是要 阅读全文

posted @ 2021-05-28 15:08 DataJam 阅读(1130) 评论(0) 推荐(0)

一、缺失值处理办法汇总
摘要:检测缺失值: 1 # 检测缺失值 2 # isnull --判定,如果是缺失值, True 如果不是, False --和sum连用 --统计各列的缺失值个数 3 # notnull --判定,如果有值,True,如果缺失,--False,和sum连用 --count类似--统计非空数据的数目 4 阅读全文

posted @ 2021-05-28 11:46 DataJam 阅读(1314) 评论(0) 推荐(0)

导航