文献阅读
2014-08-26 00:01 breece 阅读(180) 评论(0) 收藏 举报定义:(机器学习)要对机器学习给出一个具体的精确的定义并非易事。机器学习中的一个重要内容————统计机器学习(Statistical Machining Learning,SML):研究基于数据的问题求解方法、主要包括人工神经网络(Artificial Neural Networks,ANNs)、Bayes网络(Bayes Networks,BNs)、正则网络(Regularization Networks,RNs)、统计信号处理(Statistical Signal Processing,SSP)、统计学习理论(Statistical Learning Theory,SLT)、以及最近提出的核机器学习方法(Kernel Machines,KMs)和一些基于知识发现和数据挖掘(Knowledge Discoverying and Datamining,KDD)的机器学习方法。————计算机利用经验改善系统自身性能的行为。
(数据类型)结构化、半结构化、非结构化、
(大数据)数据体量巨大volume、数据类型繁多variety、数据价值密度低value、有很多实时数据需要快速处理velocity。
(大数据时代主要评测指标)泛化能力、速度、可理解性、数据利用能力、代价敏感、知识的迁移性、数据隐私性。
研究方向:一是研究学习机制,注重探索、模拟人的学习机制;二是研究如何有效利用信息, 注重从巨量数据中获取隐藏的、有效的、可理解的知识。
1.《机器学习方法研究》 周伟达 西安电子科技大学
本文工作:
核机器技术包括:支撑矢量机、核Fisher分类器、核主分量分析。
本论文的所有工作在上述结合点上展开,主要包括:
(1) 支持矢量机算法研究
一、 分析了支撑矢量机的基本几何性质。针对模式识别和回归估计两类支撑矢量机,分别分析和证明了它们的一些基本几何性质,基于这些性质讨论了支撑矢量机对新增样本的推广能力,得到了一些非常有价值的结论。从这些结论可以看出支撑矢量机对新增样本具有良好的推广能力,并且支撑矢量机是一种可积累的学习模型。
二、 提出了线性规划支撑矢量机。
三、 提出了无约束规划回归估计支撑矢量机。
四、 提出了自适应支撑矢量机算法。
(2) 基于统计学习理论的新核算法
一、提出了一种新的支撑矢量机模型选择准则。
二、提出了复值支撑矢量机算法。
三、提出了基于父子波正交投影核的支撑矢量机算法。
四、提出了在隐空间中的两种核机器学习算法。
2.《大数据时代机器学习的新趋势》 陈康 中国电信股份有限公司广东研究院
本文主要:讨论了大数据时代机器学习的发展新趋势和研究重点,并对与大数据相关性大的几个关键技术进行了分析介绍。
大数据时代的数据绝大多数是大量无标识的数据和少量有标识数据的组合,半监督学习方法是处理该类数据的有效方法;工作原理主要基于3 个假设:半监督光滑假设、聚类假设以及流型假设[5]。半监督学习方法包括基于生成式模型的半监督学习、基于低密度划分的半监督学习、基于图的半监督学习以及基于不一致性的半监督学习。
随着数据量的激增,单一学习器的学习成果和效率难以满足要求,通过多个学习器整合后的集成学习方法能较有效地获取学习的结果;可以将集成学习分为两类:一类是顺序的集成学习方法,基本学习器是按次序生成的,这类算法利用基本学习器之间的相关性, 整体的性能通过减小残余错误的方式来提高,一个典型的例子是Boosting;另一类是并行集成学习方法,基本学习器是并行生成的,这类算法利用基本学习器之间的独立性,通过综合多个独立的基本学习器,可以大大减小学习的错误,一个典型的例子是Bagging。
概率图模型通过图形可视化的方式为多种结构的大数据分析提供了简单有效的分析模型;
而通过迁移学习,已有的学习成果能不断积累并衍生引用到未知的领域。分为基于实例、基于特征、基于参数以及基于关系的知识迁移。
3.《神经网络集成》 周志华 陈世福 南京大学计算机软件新技术国家重点实验室
本文从实现方法、理论分析和应用成果三方面综述了神经网络集成的国际研究现状,并对该领域值得进一步研究的一些问题进行了讨论。
对神经网络集成实现方法的研究主要集中在:怎样将多个神经网络的输出结论进行集合以及如何生成集成中的个体网络。
(1),集成的输出通常由个体网络的输出投票产生;当神经网络集成用于回归估计时,集成的输出通常由各网络的输出通过简单平均或加权平均产生;有的研究者 利用神经网络这样的学习系统,通过学习来对多个预测进行结合;有的研究者通过对一组子网进行优化,使各子网都可以较好地处理一个输入子空间,从而一步步地进行结台;
(2)个体生成方法。Boosting和Bagging。Bagging类算法与Boosting类算法的主要区别
在于Bagging的训练集的选择是随机的,各轮训练集之间相互独立,而Boosting的训练集的选择不是独立的,各轮训练集的选择与前面各轮的学习结果有关。~Bagging的各个预测函数没有权重,而Boosting是有权重的;Bagging的各个预测函数可以并行生成,而Boosting的各个预测函数只能顺序生成.
应用:利用由相对多数投票法结合的神经网络集成进行手写体数字识别;比较了用Boosting,Bagging等方法产生的神经网络集成在改善OCR性能上的效果;将神经网络集成和决策树相结合进行正面人脸识别,其集成由RBF网络采用相对多数投票法构成。将Boosting用于文本分类。
4.《基于半监督的中文关系类型发现》 杨肖方
5.《what is mechine learning》
定义:
设计出能够在没有人类干预下自动学习的算法。
例子:
分类问题:
(1) 光学字符识别
(2) 检测出脸
(3) 垃圾邮件过滤
(4) 文章主题定位
(5) 理解语言
(6) 医疗诊断
(7) 欺骗检测
(8) 天气预测
回归问题:
(1) 明天下雨的概率
(2) 房子卖的价格
智能行为、智能决策:
(1) 怎样做决定能够让我们的利润最大化
目标:
对实际数据开发通用算法、理解算法。
优势:1、机器学习更精确:一方面、机器学习是数据驱动的,能够检验大量的数据;
另一方面:专家一般是由不精确的印象或者仅仅检验相对很少数量的例子。而且:人类通常在对事物写上标签上面没有困难,但是在表达他们知道的东西的方面有困难,
2、机器学习能够揭示学习的通常现象。
过程:
(1) 越多的数据越好
(2) 找到模型拟合数据
(3) 模型越简单越好
找到模型的拟合率和简单之间的平衡。
建模前:
(1) 要学习的是什么?
(2) 数据是怎样产生的?
(3) 数据是怎样传递给学习机的?
(4) 这个模型中学习的目标是什么?
浙公网安备 33010602011771号