machine learning - 随笔分类(第2页) - 合唱团abc

各种模型适用场景

摘要：KNN适用情景：需要一个特别容易解释的模型的时候。比如需要向用户解释原因的推荐算法。贝叶斯适用情景：需要一个比较容易解释，而且不同维度之间相关性较小的模型的时候。可以高效处理高维数据，虽然结果可能不尽如人意。决策树适用情景：因为它能够生成清晰的基于特征(feature)选择不同预测结果阅读全文

posted @ 2017-07-16 16:51 合唱团abc 阅读(894) 评论(0) 推荐(0)

LightGBM

摘要：Optimization in speed and memory usage Many boosting tools use pre-sorted based algorithms[1][2](e.g. default algorithm in xgboost) for decision tree 阅读全文

posted @ 2017-07-14 16:25 合唱团abc 阅读(1206) 评论(0) 推荐(0)

集成学习--(摘自西瓜书)

摘要：集成学习通过将多个学习器进行结合，常可获得比单一学习器显著优越的泛化性能，对“弱学习器” 尤为明显。弱学习器常指泛化性能略优于随机猜测的学习器。集成学习的结果通过投票法产生，即“少数服从多数”。个体学习不能太坏，并且要有“多样性”，即学习器间具有差异。即集成个体应“好而不同”。假设基分类器的错误率阅读全文

posted @ 2017-07-07 16:32 合唱团abc 阅读(3053) 评论(0) 推荐(1)

聚类--(摘自西瓜书)

摘要：一、聚类性能度量通常我们希望聚类结果的“簇内相似度”（intra-cluster similarity）高且“簇间相似度”（inter-cluster similarity）低。聚类性能度量大致有两类：一类是将聚类结果与某个“参考模型”（reference model）进行比较，称为“外部指标”（阅读全文

posted @ 2017-07-07 15:24 合唱团abc 阅读(2365) 评论(0) 推荐(0)

特征选择

摘要：一、为什么做特征选择二、特征选择的常用方法 2. 1 Filter Filter方法是选定一个指标来评估特征，根据指标值来对特征排序，去掉达不到足够分数的特征。这类方法只考虑特征X和目标Y之间的关联，相对另两类特征选择方法Wrapper和Embedded计算开销最少，特征选择过程与后续学习器无关。阅读全文

posted @ 2017-07-05 15:11 合唱团abc 阅读(444) 评论(0) 推荐(0)

k-svd字典学习，稀疏编码

摘要：1. K-SVD usage: Design/Learn a dictionary adaptively to betterfit the model and achieve sparse signal representations. 2. Main Problem: Y = DX Where Y 阅读全文

posted @ 2017-07-04 16:55 合唱团abc 阅读(508) 评论(0) 推荐(0)

Proximal Gradient Descent for L1 Regularization(近端梯度下降求解L1正则化问题)

摘要：假设我们要求解以下的最小化问题： $min_xf(x)$ 如果$f(x)$可导，那么一个简单的方法是使用Gradient Descent (GD)方法，也即使用以下的式子进行迭代求解： $x_{k+1} = x_k - a\Delta f(x_k)$ 如果$\Delta f(x)$满足L-Lipsc 阅读全文

posted @ 2017-07-04 16:40 合唱团abc 阅读(2951) 评论(0) 推荐(0)

机器学习面试知识点总结(不断补充中)

摘要：http://www.cnblogs.com/zuochongyan/p/5407053.html https://www.analyticsvidhya.com/blog/2016/09/40-interview-questions-asked-at-startups-in-machine-lea 阅读全文

posted @ 2017-07-04 16:17 合唱团abc 阅读(447) 评论(0) 推荐(0)

关于one-hot encoding思考

摘要：Many learning algorithms either learn a single weight per feature, or they use distances between samples. The former is the case for linear models suc 阅读全文

posted @ 2017-05-18 16:26 合唱团abc 阅读(653) 评论(0) 推荐(0)

validation set以及cross validation的常见做法

摘要：如果给定的样本充足，进行模型选择的一种简单方法是随机地将数据集切分成三部分，分为训练集（training set）、验证集（validation set）和测试集（testing set）。训练集用来训练模型，验证集用于模型的选择，而测试集用于最终对学习方法评估。在学习到的不同复杂度的模型中，选择对阅读全文

posted @ 2017-05-18 11:58 合唱团abc 阅读(3395) 评论(0) 推荐(1)

sklearn 特征选择

摘要：1、移除低方差的特征(Removing features with low variance) VarianceThreshold 是特征选择中的一项基本方法。它会移除所有方差不满足阈值的特征。默认设置下，它将移除所有方差为0的特征，即那些在所有样本中数值完全相同的特征。这里的方差是特征值的方差，阅读全文

posted @ 2017-05-10 11:14 合唱团abc 阅读(709) 评论(0) 推荐(0)

逻辑回归以及广义线性模型总结

摘要：常见的广义线性模型有：probit模型、poisson模型、对数线性模型等等。对数线性模型里有：logistic regression、Maxinum entropy。在二分类问题中，为什么弃用传统的线性回归模型，改用逻辑斯蒂回归？线性回归用于二分类时，首先想到下面这种形式，p是属于类别的概率：阅读全文

posted @ 2017-04-20 14:29 合唱团abc 阅读(2320) 评论(0) 推荐(0)

sklearn preprocessing data(数据预处理)

摘要：参考： http://scikit-learn.org/stable/modules/preprocessing.html 阅读全文

posted @ 2017-04-19 20:42 合唱团abc 阅读(321) 评论(0) 推荐(0)

how to avoid over-fitting?（机器学习中防止过拟合的方法，重要）

摘要：methods to avoid overfitting: 参考： https://www.analyticsvidhya.com/blog/2015/02/avoid-over-fitting-regularization/ 1、获取更多数据：解决过拟合最有效的方法从数据源头获取更多数据根据当阅读全文

posted @ 2017-04-19 20:41 合唱团abc 阅读(784) 评论(0) 推荐(0)

xgboost调参

摘要：The overall parameters have been divided into 3 categories by XGBoost authors: general parameters Select the type of model to run at each iteration. I 阅读全文

posted @ 2017-04-04 16:07 合唱团abc 阅读(2385) 评论(0) 推荐(0)

xgboost原理及并行实现

摘要：XGBoost训练： It is not easy to train all the trees at once. Instead, we use an additive strategy: fix what we have learned, and add one new tree at a ti 阅读全文

posted @ 2017-04-01 16:53 合唱团abc 阅读(4810) 评论(0) 推荐(0)

模型评价标准【重要】

摘要：Jaccard similarity coefficient（杰卡德相似系数）：两个集合A和B的交集元素在A，B的并集中所占的比例，称为两个集合的杰卡德相似系数 Correlation coefficient（相关系数）：准确率、召回、Fscore： Hinge Loss： $L(y(wx + 阅读全文

posted @ 2017-04-01 11:55 合唱团abc 阅读(1065) 评论(0) 推荐(0)

GBDT调参

摘要：gbm算法流程图： gbdt 参数：参考scikit-learn The overall parameters can be divided into 3 categories: Tree-Specific Parameters： Defines the minimum number of samp 阅读全文

posted @ 2017-03-24 17:05 合唱团abc 阅读(664) 评论(0) 推荐(0)

softmax回归

摘要：softmax回归模型是logistic回归模型在多分类问题上的推广，在多分类问题中，类标签$y$可以取两个以上的值，softmax回归是有监督的。在logistic回归中，预测函数为： $h_{\Theta}(x) = \frac{1}{1 + exp(-\Theta^Tx)}$ 损失函数为 $ 阅读全文

posted @ 2017-03-13 13:26 合唱团abc 阅读(341) 评论(0) 推荐(0)

sklearn特征工程总结

摘要：转自： http://www.cnblogs.com/jasonfreak/p/5448385.html https://www.zhihu.com/question/28641663/answer/41653367 阅读全文

posted @ 2017-03-07 17:28 合唱团abc 阅读(177) 评论(0) 推荐(0)

合唱团abc

随笔分类 - machine learning

公告