面试准备 - 随笔分类 - porco

打标签

摘要：打标签对于分类问题是很重要的比如对于银行理财产品营销建模，不能粗暴地把买过理财产品的定义为1，没卖过的定义为0。这样的定义下，标签0下的客户是很多误定的，因为其中有很多客户根本不知道理财产品，如果知道，他们是会买的。所以，如果要使用监督式学习，需要知道客户是否知道该产品，只用知道产品的客户的数据建模... 阅读全文

posted @ 2016-01-22 15:38 porco 阅读(220) 评论(0) 推荐(0)

模型选择

摘要：数据量小，选用 high bias/low variance模型（Naive Bayes），因为low bias/high variance模型（KNN，logistic regression）会overfitNaive Bayes：简单，只需要计数就可以；数据量小时，也适用；如果各因素独立（比如词... 阅读全文

posted @ 2015-05-29 12:37 porco 阅读(229) 评论(0) 推荐(0)

L1 正则和 L2 正则的区别

摘要：L1，L2正则都可以看成是条件限制，即 $\Vert w\Vert \leq c$ $\Vert w\Vert^2 \leq c$当w为2维向量时，可以看到，它们限定的取值范围如下图：所以它们对模型的限定不同而对于一般问题来说，L1 正则往往取到正方形的顶点，即会有很多分量为0，具有稀疏性，有... 阅读全文

posted @ 2015-05-29 11:58 porco 阅读(5447) 评论(0) 推荐(1)

why constrained regression and Regularized regression equivalent

摘要：problem 1: $\min_{\beta} ~f_\alpha(\beta):=\frac{1}{2}\Vert y-X\beta\Vert^2 +\alpha\Vert \beta\Vert$problem 2: $\min_{\beta} ~\frac{1}{2}\Vert y-X\b... 阅读全文

posted @ 2015-05-29 03:26 porco 阅读(221) 评论(0) 推荐(0)

naive bayes

摘要：场景：垃圾邮件预测目标：$p(y|w) = \frac{p(w|y)p(y)}{p(w)}$对于一封邮件来说，它的单词相同，所以$p(w)$可以不关心，计算得到分子就能知道更属于哪一类所以，关键在于计算$p(y)$以及$p(w_i|y)$，即根据数据估计这些値假设w为(0,1,0,.,1,..,0)... 阅读全文

posted @ 2015-05-28 23:03 porco 阅读(193) 评论(0) 推荐(0)

异常检测

摘要：阅读全文

posted @ 2015-05-28 22:55 porco 阅读(152) 评论(0) 推荐(0)

click through rate prediction

摘要：包括内容如下图：使用直接估计法，置信区间置信率的估计：1.使用二项分布直接估计$p(0.04 4).astype(np.int)X_train = X[:-400]y_train = y[:-400]X_test = X[-400:]y_test = y[-400:]lrg = LogisticRe... 阅读全文

posted @ 2015-05-27 16:51 porco 阅读(1145) 评论(0) 推荐(0)

红猪飞天侠

i stand for the light

随笔分类 - 面试准备