随笔分类 -  Machine Learning

摘要:Affinity Propagation (AP) 聚类是2007年在Science杂志上提出的一种新的聚类算法。它根据N个数据点之间的相似度进行聚类,这些相似度可以是对称的,即两个数据点互相之间的相似度一样(如欧氏距离);也可以是不对称的,即两个数据点互相之间的相似度不等。这些相似度组成N×N的相... 阅读全文
posted @ 2015-07-27 10:56 黎嫣 阅读(4016) 评论(0) 推荐(0)
摘要:转自:http://www.gogoqq.com/ASPX/8390905/JournalContent/1303140588.aspx研究了近半年的算法,记录下来给自己一个交代,也应该是考G前地最后一篇日志了。 Weighted Gene Co-Expression Network Analysi... 阅读全文
posted @ 2015-04-03 22:52 黎嫣 阅读(6901) 评论(0) 推荐(0)
摘要:R分析空间数据(Spatial Data) R机器学习包(Machine Learning) R多元统计包(Multivariate Statistics) R药物(代谢)动力学数据分析包 R计算计量经济学包(Computational Econometrics)R机器学习包(Machine Lea... 阅读全文
posted @ 2014-09-11 09:46 黎嫣 阅读(1748) 评论(0) 推荐(0)
摘要:在机器学习的应用背景是多种多样的,做实际工程必须学会如何根据 具体的问题评估一个学习模型的好坏,如何合理地选择模型、提取特征,如何进行参数调优。这些也是我以前做模式识别时欠缺的环节,所以在遇到识别率很低的情 况时,往往很困惑,不知道该如何改进:到底是应该改进模型改变特征、还是应该增加训练样本数量,到... 阅读全文
posted @ 2014-08-03 21:45 黎嫣 阅读(268) 评论(0) 推荐(0)
摘要:机器学习问题方法总结大类名称关键词有监督分类决策树信息增益分类回归树Gini指数,Χ2统计量,剪枝朴素贝叶斯非参数估计,贝叶斯估计线性判别分析Fishre判别,特征向量求解K最邻近相似度度量:欧氏距离、街区距离、编辑距离、向量夹角、Pearson相关系数逻辑斯谛回归(二值分类)参数估计(极大似然估计... 阅读全文
posted @ 2014-08-03 21:26 黎嫣 阅读(699) 评论(0) 推荐(0)
摘要:偏最小二乘法是一种新型的多元统计数据分析方法,它于1983年由伍德(S.Wold)和阿巴诺(C.Albano)等人首提示来的,偏最小二乘法有机的结合起来了,在一个算法下,可以同时实现回归建模(多元线性回归)、数据结构简化(主成分分析)以及两组变量之间的相关性分析(典型相关分析)。这是多元统计数据分析中的一个飞跃。偏最小二乘法在统计应用中的重要性体现在以下几个方面: 偏最小二乘法是一种多因变量对多自变量的回归建模方法。偏最小二乘法可以较好的解决许多以往用普通多元回归无法解决的问题。 偏最小二乘法之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。 主成分回归的主要目的是要提取 阅读全文
posted @ 2014-03-07 16:30 黎嫣 阅读(2802) 评论(0) 推荐(0)
摘要:http://www.cnblogs.com/tornadomeet/p/3395593.html朴素贝叶斯的优点: 对小规模的数据表现很好,适合多分类任务,适合增量式训练。 缺点: 对输入数据的表达形式很敏感。决策树的优点: 计算量简单,可解释性强,比较适合处理有缺失属性值的样本,能够处理不相关的特征; 缺点: 容易过拟合(后续出现了随机森林,减小了过拟合现象);Logistic回归优点: 1、实现简单; 2、分类时计算量非常小,速度很快,存储资源低; 缺点: 1、容易欠拟合,一般准确度不太高 2、只能处理两分类问题(在此基础上衍生出来的softmax可以用于多分类),... 阅读全文
posted @ 2014-02-23 16:45 黎嫣 阅读(3436) 评论(0) 推荐(0)
摘要:纠错输出编码法(Error-CorrectingOutputCodes,ECOC)不仅能够将多类分类问题转化为多个两类问题,而且利用纠错输出码本身具有纠错能力的特性,可以提高监督学习算法的预测精度。将多类问题两类化的重要途径是对输出的类别进行编码,即每个类别对应一个长度为n的二进制位串(称为码字),共形成m个码字,这些码字的同一位描述了一个二值函数。学习结束后获得n个二分器,在分类阶段,每个二分器对输入样本产生的输出形成输出向量,然后由决策规则判定输入样本的类别。纠错输出编码法:将机器学习问题看做数据通信问题,并采用纠错输出码对各类别进行编码,因此在分类过程中能够纠正某些二分器的错误输出,从而 阅读全文
posted @ 2014-02-19 17:18 黎嫣 阅读(5042) 评论(2) 推荐(0)
摘要:遗传算法(GeneticAlgorithms,GA)是一种全局优化方法,它借用了生物遗传学的观点,通过自然选择、遗传、变异等作用机制,实现种群中个体适应性的提高,体现了自然界中“物竞天择、适者生存”的进化过程。遗传算法是一类借鉴生物界自然选择和自然遗传机制的随机化搜索算法,它模拟自然选择和自然遗传过程中发生的繁殖、交叉和基因突变现象,在每次迭代中都保留一组候选解,并按某种指标从解群中选取较优的个体,利用遗传算子(选择、交叉和变异)对这些个体进行组合,产生新一代的候选种群,并重复此过程,直到满足某种收敛指标为止。基本遗传算法(SimpleGeneticAlgorithms,简称SGA,又称简单遗 阅读全文
posted @ 2014-02-19 16:51 黎嫣 阅读(3313) 评论(0) 推荐(0)
摘要:支持向量机(SupportVectorMachine,SVM),集成了最大间隔超平面、Mercer核、凸二次规划、稀疏解和松弛变量等多项技术。核表示方式将数据映射到高位空间来增加线性学习器的计算能力。训练样本不会独立出现,而总是以成对样本的内积形式出现。通过选择恰当的核函数来代替内积,可以隐式地将训练数据非线性映射到高维空间,而不增加可调参数的个数,当然前提是核函数能够计算对应着两个输入特征向量的内积。需要学习的目标函数的复杂度取决于它的表示方式,学习任务的难度也会随之变化。在理想情况下,应该选择与特定的学习问题匹配的表示。将数据简单映射到另一个空间有时能够很好地简化任务。一般而言,描述数据的 阅读全文
posted @ 2014-02-18 17:07 黎嫣 阅读(761) 评论(0) 推荐(0)
摘要:神经网络基本模型:1.前向神经网络:无圈的有向图N=(V,E,W),其中,V为神经元集合,E为连结权值集合,W为每一连结赋予一实值的权重。神经元集V可以被分成无接受域的输入结点集V1,无投射域的输出结点集V0和既有接受域又有投射域的隐结点集VH。一般的前向神经网络包括一个输入层、一个输出层和若干隐单元。隐单元可分层也可以不分层。若分层,则成为多层前向神经网络。网络的输入、输出神经元的激励函数一般取线性函数,而隐单元则为非线性函数。前向神经网络的输入单元从外部环境中接受信号,经处理将输出信号加权后传给其投射域中的神经元,网络中的隐含单元或输出单元从其接受域中接受净输入,然后向它的投射域发送输出信 阅读全文
posted @ 2014-02-18 14:34 黎嫣 阅读(2099) 评论(0) 推荐(0)
摘要:学习过程:发现新模式->应用、泛化->约束、修正->固定模式人工智能大师H.A.Simon的观点:“学习”就是系统在不断重复的工作中对本身能力的增强或改进,结果是系统在下一次执行同样任务或类似任务时,比现在做得更好或效率更高。简而言之,“学习”指系统改进其性能的任何过程。机器学习系统:给定某类任务T、与T相关的性能P和经验E,计算机程序从经验E中学习,用学习的结果改善性能P,从而实现自我完善,则称该程序具有学习能力。影响学习系统设计的最重要因素是环境向系统提供的信息,即学习模型中的E机器学习方法分类:1.监督学习:利用有类别标识的训练样本集合和选定的模型来确定分类器的过程。对 阅读全文
posted @ 2014-02-17 16:00 黎嫣 阅读(1016) 评论(0) 推荐(0)