随笔分类 -  machine learning

摘要:KNN适用情景: 需要一个特别容易解释的模型的时候。 比如需要向用户解释原因的推荐算法。 贝叶斯适用情景: 需要一个比较容易解释,而且不同维度之间相关性较小的模型的时候。 可以高效处理高维数据,虽然结果可能不尽如人意。 决策树适用情景: 因为它能够生成清晰的基于特征(feature)选择不同预测结果 阅读全文
posted @ 2017-07-16 16:51 合唱团abc 阅读(894) 评论(0) 推荐(0)
摘要:Optimization in speed and memory usage Many boosting tools use pre-sorted based algorithms[1][2](e.g. default algorithm in xgboost) for decision tree 阅读全文
posted @ 2017-07-14 16:25 合唱团abc 阅读(1205) 评论(0) 推荐(0)
摘要:集成学习通过将多个学习器进行结合,常可获得比单一学习器显著优越的泛化性能,对“弱学习器” 尤为明显。弱学习器常指泛化性能略优于随机猜测的学习器。集成学习的结果通过投票法产生,即“少数服从多数”。个体学习不能太坏,并且要有“多样性”,即学习器间具有差异。即集成个体应“好而不同”。 假设基分类器的错误率 阅读全文
posted @ 2017-07-07 16:32 合唱团abc 阅读(3053) 评论(0) 推荐(1)
摘要:一、聚类性能度量 通常我们希望聚类结果的“簇内相似度”(intra-cluster similarity)高且“簇间相似度”(inter-cluster similarity)低。聚类性能度量大致有两类:一类是将聚类结果与某个“参考模型”(reference model)进行比较,称为“外部指标”( 阅读全文
posted @ 2017-07-07 15:24 合唱团abc 阅读(2365) 评论(0) 推荐(0)
摘要:一、为什么做特征选择 二、特征选择的常用方法 2. 1 Filter Filter方法是选定一个指标来评估特征,根据指标值来对特征排序,去掉达不到足够分数的特征。这类方法只考虑特征X和目标Y之间的关联,相对另两类特征选择方法Wrapper和Embedded计算开销最少,特征选择过程与后续学习器无关。 阅读全文
posted @ 2017-07-05 15:11 合唱团abc 阅读(444) 评论(0) 推荐(0)
摘要:1. K-SVD usage: Design/Learn a dictionary adaptively to betterfit the model and achieve sparse signal representations. 2. Main Problem: Y = DX Where Y 阅读全文
posted @ 2017-07-04 16:55 合唱团abc 阅读(508) 评论(0) 推荐(0)
摘要:假设我们要求解以下的最小化问题: $min_xf(x)$ 如果$f(x)$可导,那么一个简单的方法是使用Gradient Descent (GD)方法,也即使用以下的式子进行迭代求解: $x_{k+1} = x_k - a\Delta f(x_k)$ 如果$\Delta f(x)$满足L-Lipsc 阅读全文
posted @ 2017-07-04 16:40 合唱团abc 阅读(2950) 评论(0) 推荐(0)
摘要:http://www.cnblogs.com/zuochongyan/p/5407053.html https://www.analyticsvidhya.com/blog/2016/09/40-interview-questions-asked-at-startups-in-machine-lea 阅读全文
posted @ 2017-07-04 16:17 合唱团abc 阅读(447) 评论(0) 推荐(0)
摘要:Many learning algorithms either learn a single weight per feature, or they use distances between samples. The former is the case for linear models suc 阅读全文
posted @ 2017-05-18 16:26 合唱团abc 阅读(653) 评论(0) 推荐(0)
摘要:如果给定的样本充足,进行模型选择的一种简单方法是随机地将数据集切分成三部分,分为训练集(training set)、验证集(validation set)和测试集(testing set)。训练集用来训练模型,验证集用于模型的选择,而测试集用于最终对学习方法评估。在学习到的不同复杂度的模型中,选择对 阅读全文
posted @ 2017-05-18 11:58 合唱团abc 阅读(3395) 评论(0) 推荐(1)
摘要:1、移除低方差的特征(Removing features with low variance) VarianceThreshold 是特征选择中的一项基本方法。它会移除所有方差不满足阈值的特征。默认设置下,它将移除所有方差为0的特征,即那些在所有样本中数值完全相同的特征。 这里的方差是特征值的方差, 阅读全文
posted @ 2017-05-10 11:14 合唱团abc 阅读(709) 评论(0) 推荐(0)
摘要:常见的广义线性模型有:probit模型、poisson模型、对数线性模型等等。对数线性模型里有:logistic regression、Maxinum entropy。 在二分类问题中,为什么弃用传统的线性回归模型,改用逻辑斯蒂回归? 线性回归用于二分类时,首先想到下面这种形式,p是属于类别的概率: 阅读全文
posted @ 2017-04-20 14:29 合唱团abc 阅读(2320) 评论(0) 推荐(0)
摘要:参考: http://scikit-learn.org/stable/modules/preprocessing.html 阅读全文
posted @ 2017-04-19 20:42 合唱团abc 阅读(321) 评论(0) 推荐(0)
摘要:methods to avoid overfitting: 参考: https://www.analyticsvidhya.com/blog/2015/02/avoid-over-fitting-regularization/ 1、获取更多数据:解决过拟合最有效的方法 从数据源头获取更多数据 根据当 阅读全文
posted @ 2017-04-19 20:41 合唱团abc 阅读(784) 评论(0) 推荐(0)
摘要:The overall parameters have been divided into 3 categories by XGBoost authors: general parameters Select the type of model to run at each iteration. I 阅读全文
posted @ 2017-04-04 16:07 合唱团abc 阅读(2385) 评论(0) 推荐(0)
摘要:XGBoost训练: It is not easy to train all the trees at once. Instead, we use an additive strategy: fix what we have learned, and add one new tree at a ti 阅读全文
posted @ 2017-04-01 16:53 合唱团abc 阅读(4810) 评论(0) 推荐(0)
摘要:Jaccard similarity coefficient(杰卡德相似系数): 两个集合A和B的交集元素在A,B的并集中所占的比例,称为两个集合的杰卡德相似系数 Correlation coefficient(相关系数): 准确率、召回、Fscore: Hinge Loss: $L(y(wx + 阅读全文
posted @ 2017-04-01 11:55 合唱团abc 阅读(1065) 评论(0) 推荐(0)
摘要:gbm算法流程图: gbdt 参数:参考scikit-learn The overall parameters can be divided into 3 categories: Tree-Specific Parameters: Defines the minimum number of samp 阅读全文
posted @ 2017-03-24 17:05 合唱团abc 阅读(664) 评论(0) 推荐(0)
摘要:softmax回归模型是logistic回归模型在多分类问题上的推广,在多分类问题中,类标签$y$可以取两个以上的值,softmax回归是有监督的。 在logistic回归中,预测函数为: $h_{\Theta}(x) = \frac{1}{1 + exp(-\Theta^Tx)}$ 损失函数为 $ 阅读全文
posted @ 2017-03-13 13:26 合唱团abc 阅读(341) 评论(0) 推荐(0)
摘要:转自: http://www.cnblogs.com/jasonfreak/p/5448385.html https://www.zhihu.com/question/28641663/answer/41653367 阅读全文
posted @ 2017-03-07 17:28 合唱团abc 阅读(177) 评论(0) 推荐(0)