随笔分类 -  机器学习

关于学习机器学习的一些心得记录。
摘要:概念学习,个人认为,就是通过训练之后,当你给定某实例的相关属性,电脑给出相应的判断是否属于这个概念。例如给出一个概念:鸟类然后该概念的属性有:如果我们定义说,有翅膀的就是鸟那么就是:“?”表示可接受任意值如果是"X"则表示不接受任意值(也就是说,只要众多属性只有一个是X那么它就不是鸟类)那么我们就有实例集合:2*2*2*2*2 个架设空间:1+3*3*3*3*3 个,因为多了一个“?”所以3 = 2 + 1 。而另外一个1则表示包含X的实例解释:一般性:例如,就比另外一个来得更加一般。Find-S:该算法自动忽略反例,只看正例接下来演示一下,左边等于给出训练实例,有变为接受 阅读全文
posted @ 2013-06-23 14:34 yutoulck 阅读(371) 评论(0) 推荐(0)
摘要:图书馆借了本机器学习,作者是:Tom M.Mitchell,亚马逊这本书排名挺靠前的。好了,直接开篇。定义一个学习问题,必须由三个特征:任务种类,衡量任务提高的标准,经验来源。接下来大篇幅讲述了,如何挑选训练经验,选择目标函数,目标函数的表示,选择函数逼近算法。整个设计下来,分为了四大模块:执行系统、鉴定器、泛化器、实验生成器。看过这本书的都会被第一章的跳棋学习深深吸引了,从豆瓣上面就可以看出来,那么接下来就从四大模块进行讲述。任务:下跳棋标准:取胜的百分比训练经验:自己跟自己训练。目标函数:将棋盘上的棋局映射为一个数字目标函数的表示:V(b)=w0+x1*w1+x2*w2+x3*w3+x4* 阅读全文
posted @ 2013-06-22 20:40 yutoulck 阅读(282) 评论(0) 推荐(0)
摘要:•什么是关联分析?通过关联规则挖掘事物间存在的关系,从而总结出有意义的规律,进而指导我们的决策。•典型应用:购物篮分析首先,需要生产一个频繁项集。这个步骤,个人认为是为了促使结果更有可信度,而不是某个典型,也是为了推出最后的强规则。频繁项集的“频繁”用支持度来表示:而“频繁”的标准则必须由一个阈值,如果支持度大于或等于某个阈值,那么该项集为频繁项集。那么怎么生成频繁项集,步骤如下:1、生成 1-项集,然后挑出符合阈值的1-项集,得到F1集合。2、生成2-项集:将F1中的项集两两组合,并保证组合后的项集中的每个1-子项集均在F1中存在,然后挑出符合阈值的2-项集,得到F2集合。……其实此过程就是 阅读全文
posted @ 2013-06-18 22:07 yutoulck 阅读(1235) 评论(0) 推荐(0)
摘要:从广外的一个朋友拿到了他们数据挖掘兴趣小组的PPT,翻了一下,有一个来自斯坦福的PPT,全英!不过我翻了一翻,受益匪浅,特别是分类算法,特此写个博文给记忆力不好的自己。 先说下背景,例如我们现在有了一封邮件,那么我们怎么根据邮件里一些关键的词语来给这封邮件分类? 首先,来个公式先 c是一个详细的类别,比如“朋友邮件”、“工作邮件”等等,而d则是关键词语(注意,关键词会有多个),上面等式的左边是指:在给出当前关键词的条件下,类型为c的概率,有变就不详细说了,可以翻看数理统计书- - 接下来利用相关统计学只是对其进行处理(抱歉,目前我这统计学水平只能这么讲给自己听了= =)上面这个公式... 阅读全文
posted @ 2013-06-16 22:52 yutoulck 阅读(785) 评论(0) 推荐(0)
摘要:首先,教授讲了一个牛顿方法,来说明这个方法是怎么得到一个θ使得f(θ)为0。在教授看来,牛顿方法收敛速度是很快的。接下来全部都用到了一个模型——广义线性模型。教授说,伯努利以及基于最小二乘法的线性回归(也就是之前所说的两个算法)是广义线性模型的一个特例。广义线性模型是这样的:之后,教授用不少的时间来证明,伯努利以及基于最小二乘法的线性回归确实是广义线性模型的一个特例,只要b(y),T(y),α(η)取相应的值,就能得到相应的伯努利以及基于最小二乘法的线性回归。详细的证明过程,可以看讲义,或者是看看视频。提出广义线性模型是为了方便你的建模,当你需要一个新的学习算法,怎么办?教授说,如果结果y只取 阅读全文
posted @ 2013-05-02 21:48 yutoulck 阅读(219) 评论(0) 推荐(0)
摘要:这次,教授给了一个算法——局部加权回归。在讲述之前,教授告诉了我们什么是欠拟合和过拟合,这也是为什么要局部加权回归的原因之一吧。局部加权回归在我的理解就是,给定x,在进行拟合的时候,我们更看重x周围的值,而离x太远的值,我们可以不重视甚至是无事,这样的话,局部拟合的效果会比较好一些。其实,算法与上集的相差不多,不过多加了一个参数来作为权值:权值的计算是:权值的变化总体来说就是,离x越近,权就越大,越远越小。到了这里,可以发现,当你现在有值要进行计算的时候,你必须重新拟合一次,因为局部加权回归是针对不同x值有不同的权值的,也就是说,不同的x值对应一个计算公式,那计算量可就大大的了。。。对了,上面 阅读全文
posted @ 2013-05-01 17:55 yutoulck 阅读(209) 评论(2) 推荐(0)
摘要:必须说对我这种数学不好的人来说,看一集这样的课程需要死掉好多脑细胞。不管怎么说,看到不懂的地方,就去百度就去找书,在这里记下自己的疑惑和答案。当然我数学不好,因此有些术语可能不够严谨。第二集中,教授给出了一个监督性学习算法的公式——梯度下降。一切从一个式子开始,当你有了两个条件x1 , x2 ,想要获得h(x),那么公式应该是这样的:更简洁的写法也就是:让机器学习,就是为了给电脑一堆数据,然后让电脑自己计算参数θ(当然,一开始的参数θ使我们给的,视频中教授给的参数θ都是0)使得最后,当我们给电脑某个x1 ,x2的时候,电脑能计算出一个值h(x),这个y与现实中的答案尽可能相同。为此,教授给了以 阅读全文
posted @ 2013-05-01 16:13 yutoulck 阅读(248) 评论(0) 推荐(0)
摘要:机器学习课程的视频来自网易公开课:http://v.163.com/special/opencourse/machinelearning.html第一集主要是课程介绍还有一些辅助的东西的讲述吧,印象较为深刻的就是MatLab被赞美了不少,看来这个软件后期需要加紧学习。其次,讲义在新浪微博 @研究者July 有,为英文PDF,建议看完之后多看讲义,讲义的公式有讲解而且较为清晰,授课老师写在黑板上难免比较男看清楚。 阅读全文
posted @ 2013-05-01 15:25 yutoulck 阅读(150) 评论(0) 推荐(0)