李燕

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

随笔分类 -  机器学习

上一页 1 2 3 4 下一页

摘要:类似于linear regression,K-means算法也optimization objective或者是试图使cost function求最小值。 了解K-means算法的optimization objective有助于我们(1)调试算法时,看算法是否运行正确(在本节中可以看到)(2)使算 阅读全文
posted @ 2016-03-02 21:25 李燕 阅读(1845) 评论(0) 推荐(0)

摘要:k-means算法是目前最流行的,用得最多的一种clustering算法 K-means算法 如果我们想要将上图中的绿色的点分为两类,首先随机的选取两个cluster centroids(聚类中心),然后迭代(循环)地做两件事:cluster assignment和move centroids(图1 阅读全文
posted @ 2016-02-29 21:50 李燕 阅读(757) 评论(0) 推荐(0)

摘要:unsupervised learning 上面是监督学习与无监督学习的比较,监督学习的training set是一组带label(y)的训练集,而无监督学习不带有label(y)。 上图中的监督学习求出决策线,用来区别正负样本点; clustering是unsupervised learning算 阅读全文
posted @ 2016-02-29 17:54 李燕 阅读(1114) 评论(0) 推荐(0)

摘要:使用SVM包来求θ,选择C与核函数 我们使用已经编写好的软件包(这些软件包效率高,用得多,是经无数人证明已经很好的可以使用的软件包)来求θ,而不是自己去编写软件来求它们(就像我们现在很少编写软件来求x½).经常使用的是liblinear和libsvm 虽然不用我们自己来写optimize函数,但是需 阅读全文
posted @ 2016-02-06 13:18 李燕 阅读(4469) 评论(0) 推荐(0)

摘要:将所有的样本都选做landmarks 一种方法是将所有的training data都做为landmarks,这样就会有m个landmarks(m个trainnign data),这样features就是某个x(可以是trainning data/cross validation data/test 阅读全文
posted @ 2016-02-05 16:16 李燕 阅读(10305) 评论(0) 推荐(0)

摘要:应用kernels来进行非线性分类 非线性分类:是否存在好的features的选择(而不是多项式)--f1,f2,f3.... 上图是一个非线性分类的问题,前面讲过,我们可以应用多项式(features)来构造hypothesis来解决复杂的非线性分类问题。 我们将x1,x2,x1x2.....替换 阅读全文
posted @ 2016-02-04 17:59 李燕 阅读(7727) 评论(0) 推荐(0)

摘要:向量内积 uTv = vTu为两个二维向量的内积,它等于p*||u||(其中p为向量v在向量u上的投影长度,是有+/-之分的,||u||为向量u的长度也称为范数),它是一个实数(是一个标量)。 如上图所示,当u与v之间的夹角小于90度时,p为正的;当u与v之间的夹角大于90度时,p为负的。 SVM的 阅读全文
posted @ 2016-02-02 21:47 李燕 阅读(2360) 评论(2) 推荐(0)

摘要:在SVM中,增加安全的间距因子 那么增加了这个间距因子后,会出现什么样的结果呢,我们将C设置为很大(C=100000) SVM决策边界 当我们将C设置得很大进,要想SVM的cost function最小,则要使蓝色框里面的term=0,即当y(i)=1时,θTx(i)>=1;当y(i)=0时,θTx 阅读全文
posted @ 2016-02-01 21:52 李燕 阅读(2051) 评论(0) 推荐(0)

摘要:很多学习算法的性能都差不多,关键不是使用哪种学习算法,而是你能得到多少数据量和应用这些学习算法的技巧(如选择什么特征向量,如何选择正则化参数等) SVM在解决非线性问题上提供了强大的方法。 logistic regression的h(x) 如果y=1,则我们希望h(x)接近于1,即希望θTx要远远大 阅读全文
posted @ 2016-02-01 20:15 李燕 阅读(1135) 评论(0) 推荐(0)

摘要:收集大量的数据可能比算法的优劣更重要Banko和Brill在2001年做了一个研究,是关于在句子中对易混单词进行识别,画出了上图的右边的那个图,这个图显示了对于不同的算法,它们的表现相似,但是随着training set size的增加,不同的算法的性能都增加。这个说明了一个较劣势的算法,如果它有大... 阅读全文
posted @ 2016-01-26 17:01 李燕 阅读(585) 评论(0) 推荐(0)

摘要:preision与recall之间的权衡依然是cancer prediction的例子,预测为cancer时,y=1;一般来说做为logistic regression我们是当hθ(x)>=0.5时,y=1;当我们想要在预测cancer更确信时(因给病人说他们有cancer会给他们带来很重大的影响,... 阅读全文
posted @ 2016-01-26 14:47 李燕 阅读(755) 评论(0) 推荐(0)

摘要:skewed classesskewed classes: 一种类里面的数量远远高于(或低于)另一个类,即两个极端的情况。预测cancer的分类模型,如果在test set上只有1%的分类误差的话,乍一看是一个很好的结果,实际上如果我们将所有的y都预测为0的话(即都不为cancer),分类误差为0.... 阅读全文
posted @ 2016-01-25 21:45 李燕 阅读(497) 评论(0) 推荐(0)

摘要:Error analysis--让我们系统的去判断我们接下来要做什么,而不是随机的,凭直觉地选择一个去做我们在设计机器学习应用时,刚开始使用简单(简单的features)的算法来很快的完成它,它可能并不完美,不能很好的解决我们的问题。然后在交叉验证集上来检验这个算法。然后通过画出学习曲线(判断是hi... 阅读全文
posted @ 2016-01-25 17:43 李燕 阅读(525) 评论(0) 推荐(0)

摘要:prioritizing what to work on设计一个机器学习算法时,我们应该先做什么?以垃圾邮件识别的例子为例:垃圾邮件发送者可能会故意将一些字符写错,如上图中的Medicine用1来代替i,M0rgages中o用0来代替。我们有一些标识为Spam的邮件,有一些标识为non-spam的邮... 阅读全文
posted @ 2016-01-15 15:59 李燕 阅读(222) 评论(0) 推荐(0)

摘要:怎么区分哪些措施对我们有用呢?----首先根据learning curve来判断你的问题是high bias or variance当你的算法是high bias问题时,如果你get more training examples是没有用处的,这时我们就不要浪费时间在get5 more trainin... 阅读全文
posted @ 2015-12-17 17:19 李燕 阅读(705) 评论(0) 推荐(0)

摘要:画learning curves可以用来检查我们的学习算法运行是否正常或者用来改进我们的算法,我们经常使用learning cruves来判断我们的算法是否存在bias problem/variance problem或者两者皆有。learning curves--m(trainning size与... 阅读全文
posted @ 2015-12-16 21:17 李燕 阅读(874) 评论(0) 推荐(0)

摘要:Linear regression with regularization当我们的λ很大时,hθ(x)≈θ0,是一条直线,会出现underfit;当我们的λ很小时(=0时),即相当于没有做regularization,会出现overfit;只有当我们的λ取intermediate值时,才会刚刚好。那... 阅读全文
posted @ 2015-12-16 17:01 李燕 阅读(1490) 评论(0) 推荐(0)

摘要:我们的函数是有high bias problem(underfitting problem)还是 high variance problem(overfitting problem),区分它们很得要,因为有助于我们提升我们的预测准确性。bias problem(underfitting proble... 阅读全文
posted @ 2015-12-16 15:25 李燕 阅读(570) 评论(0) 推荐(0)

摘要:假设我们现在想要知道what degree of polynomial to fit to a data set 或者 应该选择什么features 或者 如何选择regularization parameterλ我们该如何做?----Model selection process很好的拟合trai... 阅读全文
posted @ 2015-12-15 22:03 李燕 阅读(710) 评论(0) 推荐(0)

摘要:当有多个features时,无法通过图像来评估hypothesis当我们的hypothesis只有一个features时,可以通过观察它的图像来看它是否overfitting,但是如果我们有多个features的情况下,就无法通过画出图形来看是否overfitting.我们需要另一种方法来评估我们的... 阅读全文
posted @ 2015-12-14 21:46 李燕 阅读(801) 评论(0) 推荐(0)

上一页 1 2 3 4 下一页