随笔分类 - 面试准备
摘要:打标签对于分类问题是很重要的比如对于银行理财产品营销建模,不能粗暴地把买过理财产品的定义为1,没卖过的定义为0。这样的定义下,标签0下的客户是很多误定的,因为其中有很多客户根本不知道理财产品,如果知道,他们是会买的。所以,如果要使用监督式学习,需要知道客户是否知道该产品,只用知道产品的客户的数据建模...
阅读全文
摘要:数据量小,选用 high bias/low variance模型(Naive Bayes),因为low bias/high variance模型(KNN,logistic regression)会overfitNaive Bayes:简单,只需要计数就可以;数据量小时,也适用;如果各因素独立(比如词...
阅读全文
摘要:L1,L2正则都可以看成是 条件限制,即 $\Vert w\Vert \leq c$ $\Vert w\Vert^2 \leq c$当w为2维向量时,可以看到,它们限定的取值范围如下图:所以它们对模型的限定不同而对于一般问题来说,L1 正则往往取到正方形的顶点,即会有很多分量为0,具有稀疏性,有...
阅读全文
摘要:problem 1: $\min_{\beta} ~f_\alpha(\beta):=\frac{1}{2}\Vert y-X\beta\Vert^2 +\alpha\Vert \beta\Vert$problem 2: $\min_{\beta} ~\frac{1}{2}\Vert y-X\b...
阅读全文
摘要:场景:垃圾邮件预测目标:$p(y|w) = \frac{p(w|y)p(y)}{p(w)}$对于一封邮件来说,它的单词相同,所以$p(w)$可以不关心,计算得到分子就能知道更属于哪一类所以,关键在于计算$p(y)$以及$p(w_i|y)$,即根据数据估计这些値假设w为(0,1,0,.,1,..,0)...
阅读全文
摘要:包括内容如下图:使用直接估计法,置信区间置信率的估计:1.使用二项分布直接估计$p(0.04 4).astype(np.int)X_train = X[:-400]y_train = y[:-400]X_test = X[-400:]y_test = y[-400:]lrg = LogisticRe...
阅读全文

浙公网安备 33010602011771号