随笔分类 - machine learning
摘要:KNN适用情景: 需要一个特别容易解释的模型的时候。 比如需要向用户解释原因的推荐算法。 贝叶斯适用情景: 需要一个比较容易解释,而且不同维度之间相关性较小的模型的时候。 可以高效处理高维数据,虽然结果可能不尽如人意。 决策树适用情景: 因为它能够生成清晰的基于特征(feature)选择不同预测结果
阅读全文
摘要:Optimization in speed and memory usage Many boosting tools use pre-sorted based algorithms[1][2](e.g. default algorithm in xgboost) for decision tree
阅读全文
摘要:集成学习通过将多个学习器进行结合,常可获得比单一学习器显著优越的泛化性能,对“弱学习器” 尤为明显。弱学习器常指泛化性能略优于随机猜测的学习器。集成学习的结果通过投票法产生,即“少数服从多数”。个体学习不能太坏,并且要有“多样性”,即学习器间具有差异。即集成个体应“好而不同”。 假设基分类器的错误率
阅读全文
摘要:一、聚类性能度量 通常我们希望聚类结果的“簇内相似度”(intra-cluster similarity)高且“簇间相似度”(inter-cluster similarity)低。聚类性能度量大致有两类:一类是将聚类结果与某个“参考模型”(reference model)进行比较,称为“外部指标”(
阅读全文
摘要:一、为什么做特征选择 二、特征选择的常用方法 2. 1 Filter Filter方法是选定一个指标来评估特征,根据指标值来对特征排序,去掉达不到足够分数的特征。这类方法只考虑特征X和目标Y之间的关联,相对另两类特征选择方法Wrapper和Embedded计算开销最少,特征选择过程与后续学习器无关。
阅读全文
摘要:1. K-SVD usage: Design/Learn a dictionary adaptively to betterfit the model and achieve sparse signal representations. 2. Main Problem: Y = DX Where Y
阅读全文
摘要:假设我们要求解以下的最小化问题: $min_xf(x)$ 如果$f(x)$可导,那么一个简单的方法是使用Gradient Descent (GD)方法,也即使用以下的式子进行迭代求解: $x_{k+1} = x_k - a\Delta f(x_k)$ 如果$\Delta f(x)$满足L-Lipsc
阅读全文
摘要:http://www.cnblogs.com/zuochongyan/p/5407053.html https://www.analyticsvidhya.com/blog/2016/09/40-interview-questions-asked-at-startups-in-machine-lea
阅读全文
摘要:Many learning algorithms either learn a single weight per feature, or they use distances between samples. The former is the case for linear models suc
阅读全文
摘要:如果给定的样本充足,进行模型选择的一种简单方法是随机地将数据集切分成三部分,分为训练集(training set)、验证集(validation set)和测试集(testing set)。训练集用来训练模型,验证集用于模型的选择,而测试集用于最终对学习方法评估。在学习到的不同复杂度的模型中,选择对
阅读全文
摘要:1、移除低方差的特征(Removing features with low variance) VarianceThreshold 是特征选择中的一项基本方法。它会移除所有方差不满足阈值的特征。默认设置下,它将移除所有方差为0的特征,即那些在所有样本中数值完全相同的特征。 这里的方差是特征值的方差,
阅读全文
摘要:常见的广义线性模型有:probit模型、poisson模型、对数线性模型等等。对数线性模型里有:logistic regression、Maxinum entropy。 在二分类问题中,为什么弃用传统的线性回归模型,改用逻辑斯蒂回归? 线性回归用于二分类时,首先想到下面这种形式,p是属于类别的概率:
阅读全文
摘要:参考: http://scikit-learn.org/stable/modules/preprocessing.html
阅读全文
摘要:methods to avoid overfitting: 参考: https://www.analyticsvidhya.com/blog/2015/02/avoid-over-fitting-regularization/ 1、获取更多数据:解决过拟合最有效的方法 从数据源头获取更多数据 根据当
阅读全文
摘要:The overall parameters have been divided into 3 categories by XGBoost authors: general parameters Select the type of model to run at each iteration. I
阅读全文
摘要:XGBoost训练: It is not easy to train all the trees at once. Instead, we use an additive strategy: fix what we have learned, and add one new tree at a ti
阅读全文
摘要:Jaccard similarity coefficient(杰卡德相似系数): 两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数 Correlation coefficient(相关系数): 准确率、召回、Fscore: Hinge Loss: $L(y(wx +
阅读全文
摘要:gbm算法流程图: gbdt 参数:参考scikit-learn The overall parameters can be divided into 3 categories: Tree-Specific Parameters: Defines the minimum number of samp
阅读全文
摘要:softmax回归模型是logistic回归模型在多分类问题上的推广,在多分类问题中,类标签$y$可以取两个以上的值,softmax回归是有监督的。 在logistic回归中,预测函数为: $h_{\Theta}(x) = \frac{1}{1 + exp(-\Theta^Tx)}$ 损失函数为 $
阅读全文
摘要:转自: http://www.cnblogs.com/jasonfreak/p/5448385.html https://www.zhihu.com/question/28641663/answer/41653367
阅读全文

浙公网安备 33010602011771号