njustyxy

  博客园 :: 首页 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::
  35 随笔 :: 0 文章 :: 1 评论 :: 0 引用

公告

2011年5月24日 #

数据挖掘、机器学习、模式识别、人工智能的关系应该是:人工智能>模式识别>数据挖掘>机器学习
机器学习:
机器学习是人工智能的一个分支,它是关于让机器具有学习能力的一些算法。许多情况这种算法给一些数据和从这些数据属性的推出的信息对将来出现的新的数据做出预测。之所以可以这么做是因为大多数的非随机的数据包含一些模式,这些模式可以让机器去做泛化。
机器学习的相关概念:
监督式学习:训练数据中包含输入的向量集合并且有相应的目标值(labeled样例)
例如分类(Classification)、关联规则、回归(Regression)
非监督式学习:训练数据中不包含labeled样例
例如聚类(Cluster)、Density estimation、Visualization.
半监督式学习:组合了labled和unlabeled的Example去生成一个函数或分类
泛化(Generalization):通过训练数据训练之后能够识别新的数据。
特征提取(Feature Extraction): 为了降维去除不想关的特征,在数据预处理阶段把数据转化成容易处理的。
分类(Classification):Assign each input vector to one of a finite number of discrete categories,if the desired output consists of one or more continuous variables, then the task is called Regression Density estimation: To determine the distribution of data within the input space Visualization: to projection the data from a high-dimensional space down to two or three dimensions.
机器学习的局限性:
机器学习在大量的模式面前的泛化能力是不同的,如果一个模式不同于以前所看到的,那么这个算法很容易被误解。由于当前的数据量不够,不能涵盖各种将来的情况,所以机器学习的方法很容易出现过度泛化,从而出现不准确性。

 

 

posted @ 2011-05-24 17:12 yxy 阅读(90) 评论(0) 编辑

核函数方法简介

(1)核函数发展历史
    早在1964年Aizermann等在势函数方法的研究中就将该技术引入到机器学习领域,但是直到1992年Vapnik等利用该技术成功地将线性SVMs推广到非线性SVMs时其潜力才得以充分挖掘。而核函数的理论则更为古老,Mercer定理可以追溯到1909年,再生核希尔伯特空间(ReproducingKernel Hilbert Space, RKHS)研究是在20世纪40年代开始的。
(2)核函数方法原理
    根据模式识别理论,低维空间线性不可分的模式通过非线性映射到高维特征空间则可能实现线性可分,但是如果直接采用这种技术在高维空间进行分类或回归,则存在确定非线性映射函数的形式和参数、特征空间维数等问题,而最大的障碍则是在高维特征空间运算时存在的“维数灾难”。采用核函数技术可以有效地解决这样问题。
    设x,z∈X,X属于R(n)空间,非线性函数Φ实现输入间X到特征空间F的映射,其中F属于R(m),n<<m。根据核函数技术有:
    K(x,z) =<Φ(x),Φ(z) >                (1)
    其中:<, >为内积,K(x,z)为核函数。从式(1)可以看出,核函数将m维高维空间的内积运算转化为n维低维输入空间的核函数计算,从而巧妙地解决了在高维特征空间中计算的“维数灾难”等问题,从而为在高维特征空间解决复杂的分类或回归问题奠定了理论基础。

(3)核函数特点

    核函数方法的广泛应用,与其特点是分不开的:

    1)核函数的引入避免了“维数灾难”,大大减小了计算量。而输入空间的维数n对核函数矩阵无影响,因此,核函数方法可以有效处理高维输入。

    2)无需知道非线性变换函数Φ的形式和参数.

    3)核函数的形式和参数的变化会隐式地改变从输入空间到特征空间的映射,进而对特征空间的性质产生影响,最终改变各种核函数方法的性能。

    4)核函数方法可以和不同的算法相结合,形成多种不同的基于核函数技术的方法,且这两部分的设计可以单独进行,并可以为不同的应用选择不同的核函数和算法。

(4)常见核函数
    核函数的确定并不困难,满足Mercer定理的函数都可以作为核函数。常用的核函数可分为两类,即内积核函数和平移不变核函数,如:
 1)高斯核函数K(x,xi) =exp(-||x-xi||2/2σ2
  2)多项式核函数K(x,xi)=(x·xi+1)d, d=1,2,…,N;
  3)感知器核函数K(x,xi) =tanh(βxi+b);
  4)样条核函数K(x,xi) = B2n+1(x-xi)。
(5)核函数方法实施步骤
    核函数方法是一种模块化(Modularity)方法,它可分为核函数设计和算法设计两个部分,具体为:
    1)收集和整理样本,并进行标准化;
    2)选择或构造核函数;
    3)用核函数将样本变换成为核函数矩阵,这一步相当于将输入数据通过非线性函数映射到高维特征空间;
    4)在特征空间对核函数矩阵实施各种线性算法;
    5)得到输入空间中的非线性模型。
    显然,将样本数据核化成核函数矩阵是核函数方法中的关键。注意到核函数矩阵是l×l的对称矩阵,其中l为样本数。

(6)核函数在模式识别中的应用
    1)新方法。主要用在基于结构风险最小化(Structural Risk Minimization,SRM)的SVM中。
    2)传统方法改造。如核主元分析(kernel PCA)、核主元回归(kernel PCR)、核部分最小二乘法(kernel PLS)、核Fisher判别分析(Kernel Fisher Discriminator, KFD)、核独立主元分析(Kernel Independent Component Analysis,KICA)等,这些方法在模式识别等不同领域的应用中都表现了很好的性能。
转载:http://blog.sina.com.cn/s/blog_5dd2e9270100bs2z.html

posted @ 2011-05-24 16:54 yxy 阅读(312) 评论(0) 编辑