随笔分类 -  面试准备

摘要:打标签对于分类问题是很重要的比如对于银行理财产品营销建模,不能粗暴地把买过理财产品的定义为1,没卖过的定义为0。这样的定义下,标签0下的客户是很多误定的,因为其中有很多客户根本不知道理财产品,如果知道,他们是会买的。所以,如果要使用监督式学习,需要知道客户是否知道该产品,只用知道产品的客户的数据建模... 阅读全文
posted @ 2016-01-22 15:38 porco 阅读(220) 评论(0) 推荐(0)
摘要:数据量小,选用 high bias/low variance模型(Naive Bayes),因为low bias/high variance模型(KNN,logistic regression)会overfitNaive Bayes:简单,只需要计数就可以;数据量小时,也适用;如果各因素独立(比如词... 阅读全文
posted @ 2015-05-29 12:37 porco 阅读(229) 评论(0) 推荐(0)
摘要:L1,L2正则都可以看成是 条件限制,即 $\Vert w\Vert \leq c$ $\Vert w\Vert^2 \leq c$当w为2维向量时,可以看到,它们限定的取值范围如下图:所以它们对模型的限定不同而对于一般问题来说,L1 正则往往取到正方形的顶点,即会有很多分量为0,具有稀疏性,有... 阅读全文
posted @ 2015-05-29 11:58 porco 阅读(5447) 评论(0) 推荐(1)
摘要:problem 1: $\min_{\beta} ~f_\alpha(\beta):=\frac{1}{2}\Vert y-X\beta\Vert^2 +\alpha\Vert \beta\Vert$problem 2: $\min_{\beta} ~\frac{1}{2}\Vert y-X\b... 阅读全文
posted @ 2015-05-29 03:26 porco 阅读(221) 评论(0) 推荐(0)
摘要:场景:垃圾邮件预测目标:$p(y|w) = \frac{p(w|y)p(y)}{p(w)}$对于一封邮件来说,它的单词相同,所以$p(w)$可以不关心,计算得到分子就能知道更属于哪一类所以,关键在于计算$p(y)$以及$p(w_i|y)$,即根据数据估计这些値假设w为(0,1,0,.,1,..,0)... 阅读全文
posted @ 2015-05-28 23:03 porco 阅读(193) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2015-05-28 22:55 porco 阅读(152) 评论(0) 推荐(0)
摘要:包括内容如下图:使用直接估计法,置信区间置信率的估计:1.使用二项分布直接估计$p(0.04 4).astype(np.int)X_train = X[:-400]y_train = y[:-400]X_test = X[-400:]y_test = y[-400:]lrg = LogisticRe... 阅读全文
posted @ 2015-05-27 16:51 porco 阅读(1145) 评论(0) 推荐(0)