DataJam

随笔分类 -  机器学习

数据预处理与特征工程:降维算法
摘要:一、sklearn中的降维算法 sklearn中降维算法都被包括在模块decomposition中,这个模块本质是一个矩阵分解模块。矩阵分解可以用在降维,深度学习,聚类分析,数据预处理,低纬度特征学习,推荐系统,大数据分析等领域。 SVD和主成分分析PCA都属于矩阵分解算法中的入门算法,都是通过分解 阅读全文

posted @ 2021-06-09 16:22 DataJam 阅读(591) 评论(0) 推荐(0)

数据预处理与特征工程:处理连续型特征--二值化与分段
摘要:二值化与分段 思想:将连续变量转换为分类变量 1.sklearn.preprocessing.Binarizer 根据阈值将数据二值化(将特征值设置为0或1),用于处理连续型变量。大于阈值的值映射为1,而小于或等于阈 值的值映射为0。默认阈值为0时,特征中所有的正值都映射到1。二值化是对文本计数数据 阅读全文

posted @ 2021-06-09 10:05 DataJam

数据预处理与特征工程:哑变量(离散数据)
摘要:处理分类型特征:编码与哑变量 在机器学习中,大多数算法,譬如逻辑回归,支持向量机SVM,k近邻算法等都只能够处理数值型数据,不能处理 文字,在sklearn当中,除了专用来处理文字的算法,其他算法在fifit的时候全部要求输入数组或矩阵,也不能够导 入文字型数据(其实手写决策树和普斯贝叶斯可以处理文 阅读全文

posted @ 2021-06-09 09:46 DataJam

数据预处理与特征工程:缺失值处理
摘要:一、sklearn中的缺失值处理模块 使用模块:sklearn.impute.SimpleImputer 使用注意:sklearn中特征矩阵必须是二维的,所以对单列操作时候需要转换为二维均值,方法:shape(-1,1) 官网案例: 1 >>> import numpy as np 2 >>> fr 阅读全文

posted @ 2021-06-08 16:13 DataJam

数据预处理与特征工程:无纲量化
摘要:一、数据预处理与特征工程 1.数据预处理 数据预处理是从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程。 可能面对的问题有: 数据类型不同,比如有的是文字,有的是数字,有的含时间序列,有的连续,有的间断。 数据的质量不行,有噪声,有异常,有缺失,数据出错,量纲不一,有重复,数据是偏态, 阅读全文

posted @ 2021-06-08 15:52 DataJam

导航