DataJam

2021年6月9日 #

数据预处理与特征工程:降维算法

摘要: 一、sklearn中的降维算法 sklearn中降维算法都被包括在模块decomposition中,这个模块本质是一个矩阵分解模块。矩阵分解可以用在降维,深度学习,聚类分析,数据预处理,低纬度特征学习,推荐系统,大数据分析等领域。 SVD和主成分分析PCA都属于矩阵分解算法中的入门算法,都是通过分解 阅读全文

posted @ 2021-06-09 16:22 DataJam 阅读(570) 评论(0) 推荐(0)

数据预处理与特征工程:处理连续型特征--二值化与分段

摘要: 二值化与分段 思想:将连续变量转换为分类变量 1.sklearn.preprocessing.Binarizer 根据阈值将数据二值化(将特征值设置为0或1),用于处理连续型变量。大于阈值的值映射为1,而小于或等于阈 值的值映射为0。默认阈值为0时,特征中所有的正值都映射到1。二值化是对文本计数数据 阅读全文

posted @ 2021-06-09 10:05 DataJam 阅读(427) 评论(0) 推荐(0)

数据预处理与特征工程:哑变量(离散数据)

摘要: 处理分类型特征:编码与哑变量 在机器学习中,大多数算法,譬如逻辑回归,支持向量机SVM,k近邻算法等都只能够处理数值型数据,不能处理 文字,在sklearn当中,除了专用来处理文字的算法,其他算法在fifit的时候全部要求输入数组或矩阵,也不能够导 入文字型数据(其实手写决策树和普斯贝叶斯可以处理文 阅读全文

posted @ 2021-06-09 09:46 DataJam 阅读(1453) 评论(0) 推荐(0)

导航