随笔分类 - 数据预处理
摘要:特征选择: 用计算的方法从一组给定的特征中选择一部分特征进行分类。 特征选择的最优算法 子集树:分支限界法搜索 特征选择的次优算法 顺序后退法 从所有特征开始逐一剔除不被选中的特征(影响最小的特征) Ref: 《模式识别(第三版)》张学工
        阅读全文
                
摘要:特征提取(特征变换) 从一组已有的特征通过一定的数学运算得到一组新特征 数据降维: PCA:方差 LDA(也叫Fisher 线性判别): 均值 类内离散度尽可能小,类间离散度尽可能大 两者都假设数据分布是高斯分布 Ref. 《模式识别(第三版)》张学工
        阅读全文
                
摘要:数据标准化 Normalization 把特征的各个维度标准化到特定的区间 把有量纲表达式变为无量纲表达式 归一化是标准化的一种 Min Max Feature Scaling $$x' = \frac{x\; \; X_{min}}{X_{max} \;\;\; \;\;X_{min}}$$ 特点
        阅读全文
                
摘要:特点: 特征互斥,每次只有一个激活 离散的特征取值之间没有大小关系 作用: 扩增特征值
        阅读全文
                
摘要:https://blog.csdn.net/z962013489/article/details/79871789 https://github.com/liupei101/MLIA/blob/master/Ch0X_DimensionalityReduction/LDA.py https://bl
        阅读全文
                
摘要:小数据去重: 1.最常用的去重:set集合去重 2.数据库主键去重 大数据去重: 1.桶排序
        阅读全文
                
 
                    
                     
                    
                 
                    
                
 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号