05 2015 档案
摘要:数据量小,选用 high bias/low variance模型(Naive Bayes),因为low bias/high variance模型(KNN,logistic regression)会overfitNaive Bayes:简单,只需要计数就可以;数据量小时,也适用;如果各因素独立(比如词...
阅读全文
摘要:L1,L2正则都可以看成是 条件限制,即 $\Vert w\Vert \leq c$ $\Vert w\Vert^2 \leq c$当w为2维向量时,可以看到,它们限定的取值范围如下图:所以它们对模型的限定不同而对于一般问题来说,L1 正则往往取到正方形的顶点,即会有很多分量为0,具有稀疏性,有...
阅读全文
摘要:problem 1: $\min_{\beta} ~f_\alpha(\beta):=\frac{1}{2}\Vert y-X\beta\Vert^2 +\alpha\Vert \beta\Vert$problem 2: $\min_{\beta} ~\frac{1}{2}\Vert y-X\b...
阅读全文
摘要:场景:垃圾邮件预测目标:$p(y|w) = \frac{p(w|y)p(y)}{p(w)}$对于一封邮件来说,它的单词相同,所以$p(w)$可以不关心,计算得到分子就能知道更属于哪一类所以,关键在于计算$p(y)$以及$p(w_i|y)$,即根据数据估计这些値假设w为(0,1,0,.,1,..,0)...
阅读全文
摘要:包括内容如下图:使用直接估计法,置信区间置信率的估计:1.使用二项分布直接估计$p(0.04 4).astype(np.int)X_train = X[:-400]y_train = y[:-400]X_test = X[-400:]y_test = y[-400:]lrg = LogisticRe...
阅读全文
摘要:1.radial basis function RBF表示某种距离,$\mu_m$为中心点,相当于将点$x$到中心点的某种距离作为特征转换 Output方法可以根据需求任意选取(比如使用SVM,logistic regression等) 关键在于:中心点选取,距离函数选择2.使用kmean选取中心点...
阅读全文
摘要:神经网络的挑战和关键技术:1.神经网络结构决定(层,神经元,连接) 加入特定领域的知识(CNN 图片处理)2.模型复杂度高 大的数据量; regularization: dropout;denoising3.最优化困难 好的初始化以避免局部最优:pre-training4.计算复杂度高 好的硬件方...
阅读全文
摘要:1.将公式中的distance具体化将$w_0$单独抽出作为$b$,$w=(w_1,...,w_n),x=(x_1,...,x_n)$则分割平面为:$w^Tx+b=0$A.证明w为法向量 设两点$x',x''$都在平面上,所以有 $w^Tx'=w^Tx''=-b$ $w^T(x'-x'')=0...
阅读全文
摘要:1.autoencoderautoencoder的目标是通过学习函数,获得其隐藏层作为学习到的新特征。从L1到L2的过程成为解构,从L2到L3的过程称为重构。每一层的输出使用sigmoid方法,因为其输出介于0和1之间,所以需要对输入进行正规化使用差的平方作为损失函数 2.sparse spare的...
阅读全文
摘要:内容来自ufldl,代码参考自tornadomeet的cnnCost.m1.Forward PropagationconvolvedFeatures = cnnConvolve(filterDim, numFilters, images, Wc, bc); %对于第一个箭头activationsPo...
阅读全文

浙公网安备 33010602011771号