机器学习笔记-导论

《Machine Learning - A Probabilistic Perspective》

作者:Kevin Patrick Murphy

第一章:导论

1.1 什么是机器学习,为什么需要机器学习。

  大数据时代,要求机器能自动分析数据,能从已知的数据中学习一些隐藏的模式,来预测未来的数据,或者执行一些决策。

  机器学习大体分为两类:预测或者有监督学习:这个方式需要有训练数据库,然后给定输入特征、属性或者协变量,给定输出的信息。如果输出的是类别信息,则称这类问题叫分类问题,或者模式识别问题。如果输出的是连续值,则称这类问题为回归问题regression)

  描述(descriptive)或者无监督学习:这类问题只有输入信息,而没有关于输入的任何结构、模式等信息。给定输入,需要挖掘其内在的一些模式,因此有时候叫知识挖掘knowledge discovery)。

  还有第三类学习方法,叫增强学习reinforcement learning),这类方法是用较少,

1.2 有监督学习:

  分类问题:给定带有标注的输入数据,训练学习一个预测函数。然后,利用这个预测函数多新的样本进行预测或者标注,这个过程也就推广generalization)。

  利用概率模型,我们可以将这类问题描述为概率形成:

 

 

  利用MAP estimate原则,即最大化后验概率来决策。

  预测问题:给定的输入,输出可能是连续值。比如预测年龄、预测温度等值。

1.3 无监督学习

  无监督学习意在发掘数据的“有意思”的结构信息,在这类方法中,从概率的角度讲,我们要构建带参数的概率密度估计

  无监督学习主要有以下几类:聚类算法、降维算法(高维数据显示)、图的结构挖掘、矩阵填充(matrix completion)。

  有监督学习通常的概率描述:

 

  无监督学习通常的概率描述:

1.4 机器学习中的重要概念

  1,有参数模型和无参数模型;2,维度灾难;3,线性回归;Logistic回归;4,过拟合;5,模型选择;6,没有免费的午餐原理。

  没有免费的午餐原理】:我们在一个数据域上所做的假设,不一定在其他的数据域也同样工作的很好;实际上往往在其他域内性能很差。这个原理产生的结果是,我们开发出很多不同的模型,来覆盖现实世界中的不同的数据。

【本文完】

posted @ 2012-12-10 14:47 hSheng 阅读(...) 评论(...) 编辑 收藏