随笔分类 -  数据预处理

摘要:特征选择: 用计算的方法从一组给定的特征中选择一部分特征进行分类。 特征选择的最优算法 子集树:分支限界法搜索 特征选择的次优算法 顺序后退法 从所有特征开始逐一剔除不被选中的特征(影响最小的特征) Ref: 《模式识别(第三版)》张学工 阅读全文
posted @ 2019-10-07 21:26 youqia 阅读(235) 评论(0) 推荐(0)
摘要:特征提取(特征变换) 从一组已有的特征通过一定的数学运算得到一组新特征 数据降维: PCA:方差 LDA(也叫Fisher 线性判别): 均值 类内离散度尽可能小,类间离散度尽可能大 两者都假设数据分布是高斯分布 Ref. 《模式识别(第三版)》张学工 阅读全文
posted @ 2019-10-07 19:04 youqia 阅读(1975) 评论(0) 推荐(0)
摘要:数据标准化 Normalization 把特征的各个维度标准化到特定的区间 把有量纲表达式变为无量纲表达式 归一化是标准化的一种 Min Max Feature Scaling $$x' = \frac{x\; \; X_{min}}{X_{max} \;\;\; \;\;X_{min}}$$ 特点 阅读全文
posted @ 2019-09-29 16:04 youqia 阅读(429) 评论(0) 推荐(0)
摘要:特点: 特征互斥,每次只有一个激活 离散的特征取值之间没有大小关系 作用: 扩增特征值 阅读全文
posted @ 2019-08-24 11:50 youqia 阅读(166) 评论(0) 推荐(0)
摘要:1.返回特征按方差值从大到小排序(按重要性从大到小排序) 阅读全文
posted @ 2019-07-25 14:00 youqia 阅读(112) 评论(0) 推荐(0)
摘要:https://blog.csdn.net/z962013489/article/details/79871789 https://github.com/liupei101/MLIA/blob/master/Ch0X_DimensionalityReduction/LDA.py https://bl 阅读全文
posted @ 2019-06-15 19:52 youqia 阅读(1139) 评论(0) 推荐(0)
摘要:小数据去重: 1.最常用的去重:set集合去重 2.数据库主键去重 大数据去重: 1.桶排序 阅读全文
posted @ 2019-02-14 16:31 youqia 阅读(333) 评论(0) 推荐(0)