随笔分类 - 机器学习
摘要:一年前就研究过Fisher线性判别分析,到现在又忘得差不多了,在此特总结一下:1、线性判别分析是统计学上的一种分析方法,用于在已知的分类之下遇到有新的样本时,选定一个判别标准,以判定如何将新样本放置于哪一个类别之中。主要用于二分类问题,对于多类问题则可以多次运用该方法就可以了;2、Fisher线性判别分析的主要原理是将带有类别标签的高维样本投影到一个向量w(一维空间)上,使得在该向量上2类样本的投影值达到“低耦合高内聚“,即类内距离最小而累间距离最大,这样便是分类效果最好的情况)这样便可将问题转化成一个确定w的优化问题。3、其实w就是二分类问题的超分类面的法向量。4、类似于SVM和kern..
阅读全文
摘要:Posted byAndrewon 18 March 2013, 10:55 amLasso and meFor a long time I was wrong about lasso.Lasso (“least absolute shrinkage and selection operator”) is a regularization procedure that shrinks regression coefficients toward zero, and in its basic form is equivalent to maximum penalized likelihood e
阅读全文
摘要:The "Mahalanobis distance" is a metric (a rule for calculating the distance between two points) which is better adapted than the usual "Euclidian distance" to settings involving non spherically symmetric distributions. It is more particularly useful when multinormal distributions
阅读全文
摘要:KDD杯的中心,所有的数据,任务和结果。UCI机器学习和知识发现研究中使用的大型数据集KDD数据库存储库。UCI机器学习数据库。AWS(亚马逊网络服务)公共数据集,提供了一个集中的资料库,可以无缝集成到基于AWS的云应用程序的公共数据集。生物测定数据,在 虚拟筛选,生物测定数据,对化学信息学,J.由阿曼达Schierz的,有21个生物测定数据集(有效/无效的化合物)可供下载。加拿大开放数据,许多政府和地理空间数据集的试点项目。因果关系工作平台的数据存储库。数据源手册,指南公开数据,由皮特·沃登,奥莱利(2011年1月)。Data.gov.uk,英国(伦敦数据存储的公开数据 )。Dat
阅读全文
摘要:(水木社区) Harvard机器学习资料(video) [antinucleon] http://cm.dce.harvard.edu/2011/02/23101/publicationListing.shtml 分享一些资料[antinucleon] 1. ml-class.org 级别相当于S校的CS229A,注重Application,适合大二的学生学习,产生兴趣。但这个理论性差的太多,按Ng的说法是计算机系的学这个只能给个C 2. CS229 see.stanford.edu有SCPD的视频作业等等,我现在正在学习,正常的Advanced Undergraduate/ Graduate
阅读全文
摘要:编 程语言:搞实验个人认为当然matlab最灵活了(但是正版很贵),但是更为前途的是python(numpy+scipy+matplotlib)和 C/C++,这样组合既可搞研究,也可搞商业开发,易用性不比matlab差,功能组合更为强大,个人认为,当然R和java也不错.1.机器学习开源软件网(收录了各种机器学习的各种编程语言学术与商业的开源软件)http://mloss.org2 偶尔找到的机器学习资源网:(也非常全,1和2基本收录了所有ML的经典开源软件了)http://www.dmoz.org/Computers/Artificial_Intelligence/Machine_Lear
阅读全文

浙公网安备 33010602011771号