随笔分类 - ML
Mechine Learning
    
摘要:bagging 数据集:有放回地随机抽取m个样本组成一个训练集 分类器:多个训练集生成多个分类器,这个过程可以并行 聚合:最终决策通过多个分类器投票表决产生 多数表决的理论说明:(统计学习方法中用来分析最近邻的多数表决) 若分类的损失函数为0 1损失函数,分类函数为 $$\it{f}: \mathb
        阅读全文
                
摘要:1.在高维情况下出现的样本稀疏、距离计算困难等问题,是所有机器学习方法共同面临的严重障碍,被称为“维数灾难”。 2.原始高维空间中的样本点,在合理降维后的低维嵌入子空间中更容易进行学习。
        阅读全文
                
摘要:1.训练集各类样本比例不均(样本不平衡) 方法: 1.过采样: 缺点:错误(噪声)样本可能造成较大影响 2.欠采样: 缺点:丢样本 损失较大 3.扩大数据集: a.抽取部分样本,求平均 b.随机噪声 (2.如果训练集样本与测试集样本本身有巨大的gap,训练的过程总是让人煎熬)
        阅读全文
                
摘要:分类器: 0.最近邻: 样本无穷多 新样本与已知样本做比较,找到距离最近的已知样本,以该样本类别作为新样本的类别. 1.KNN:多分类 非线性 样本无穷多 K近邻,若一个样本在K个最相似的样本中的大多数(投票机制)属于一个类别,则该样本判定为属于这个大多数类别。 其算法的描述为: 1)计算测试数据与
        阅读全文
                
摘要:判断癌症病人的分类器好坏标准: 1.准确率(Precision) = 预测且实际得癌症数目 / 预测得癌症数目 = (TP/(TP + FP)) //P = 1-误报率(假阳) 2.召回率(Recall)= 预测且实际得癌症数目 / 实际得癌症数目 = (TP / (TP + FN)) //R=1-
        阅读全文
                
 
                    
                     
                    
                 
                    
                
 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号