随笔分类 - 机器学习
摘要:平均法:对弱分类器的结果进行加权平均,常应用于回归预测模型 投票法:一般应用于分类模型 学习法:通过另一个学习器来进行结合,把个体学习器称为初学习器,用于结合的学习器称为次级学习器或元xuexiqi(1)Stacking方法:先从初级数据集训练出初级学习器,然和“生成”一个新数据集用于训练次级学习器
        阅读全文
                
摘要:概率模型有时含有观测变量,又含有隐变量或潜在变量。如果概率模型的变量都是观测变量,那么给定数据,可以直接用极大似然估计法,或贝叶斯估计法估计模型参数。但是,当模型含有隐变量时,就不能简单地使用这些简单方法,EM算法就是含有隐变量的概率模型参数的极大似然估计法,极大后验概率估计法。 EM算法首先选取参
        阅读全文
                
摘要:提升方法通过改变训练样本的权重,学习多个分类器,并将这些分类器进行线性组合,提高分类的性能。 一. 提升方法的基本思路 大多数提升方法都是改变训练训练数据的概率分布(训练数据的权值分布),针对不同的训练数据分布调用弱学习算法学习一系列弱分类器。 1. 在每一轮是如何改变训练数据的权值或概率分布的呢?
        阅读全文
                
摘要:正则化: 正则化是结构风险最小化策略的实现,是在经验风险上加上一个正则化项或罚项。正则化项一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。比如正则化项可以是模型参数向量的范数。 正则化的作用: 选择经验风险与模型复杂度同时较小的模型 交叉验证: 在数据充足的情况下,会直接将数据分为训练集
        阅读全文
                
摘要:GSDMM是一种基于狄利克雷多项式混合模型的收缩型吉布斯采样算法(a collapsed Gibbs Sampling algorithm for the Dirichlet Multinomial Mixture model)的简称,它是发表在2014年KDD上的论文《A Dirichlet Mu
        阅读全文
                
摘要:Q1 监督学习与无监督学习 监督学习:通常是分类,通过已有的训练样本,即已知数据及其对应的输出,去训练一个最优模型。再利用这个模型对所有的数据映射相应的输出。对输出进行简单的判断从而实现分类的目的,也就具有了对未知数据进行分类的能力。 无监督学习: 我们事先没有任何训练样本,而需要直接对数据进行建模
        阅读全文
                
                    
                
浙公网安备 33010602011771号