统计学习方法--机器学习概论
(本章主要参考李航老师的《统计学习方法》,其次是周志华老师的《机器学习》。通过自己的阅读,提炼出书中的知识点以及些许自己部分的理解(可能不到位),巩固所学知识。)
统计学习方法概论
本章简要叙述统计学习方法的一些基本概念.首先许如统计学习的定义、研究对象与方法;然后叙述监督学习;接着提出统计学习方法的三要素;介绍模型选择;介绍生成模型与判别模型;最后介绍监督学习方法的应用:分类问题、标注问题与回归问题。
以下是目录结构:
一. 统计学习
二. 监督学习
三.统计学习三要素
四. 模型评估与模型选择
五. 正则化与交叉验证
六. 泛化能力
七. 生成模型与判别模型
八. 分类问题
九. 标注问题
十. 回归问题
以下是正文:
一. 统计学习
1.统计学习的特点:
‘学习’的定义(赫尔伯特·西蒙):如果一个系统能通过执行某个过程改进他的性能,这就是学习。
(1):以计算机网络为平台 (2):以数据为研究对象 (3):对数据进行预测和分析 (4):构建模型并应用模型进行预测 (5):以概率论、统计学、信息论、计算理论、最优化理论、计算机科学等多个领域的交叉学科
2.统计学习的对象:
统计学习的对象是数据。从数据出发,提取数据特征(如预测房子的价格,提取房子的占地面积,地理位置、交通情况等特征),抽象数据模型(将占地面积、地理位置、交通情况以向量的形式表达),发现数据的知识,对数据做预测和分析(构建模型如多元函数拟合)。
3.统计学习的目的:
统计学习的目的是对数据作预测和分析,特别是对位置新数据进行预测与分析。
4.统计学习的方法:
统计学习的方法是基于数据结构统计模型从而对数据进行预测与分析.统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。
实现统计学方法的步骤如下:
1.得到一个有限的训练数据集合
2.确定包含所有可能的模型的假设空间,即学习模型的集合
3.确定模型选择的准则
4.实现求解最优模型的算法
5.通过学习方法选择最优模型
6.利用最有模型预测数据
5.统计学习的研究:
统计学习的研究包括统计学方法、统计学理论及统计学应用。
6.统计学习的重要性:
近二十年来,统计学习无论是在理论还是应用方面取得了巨大的发展,统计学习已经被成功地应用到人工智能、模式识别、数据挖掘、自然语言处理、语音识别、图像识别、信息检索和生物信息等许多领域中。
统计学的重要性体现在以下三个方面:
1.处理海量数据的有效方法
2.计算机智能化的有效手段
3.计算机科学发展的一个重要组成部分
二. 监督学习
监督学习的任务是学习一个模型,使得模型能够对任意给定的输入,对其相应的输出做出一个好的预测。
下面介绍几个基本术语:
1.输入空间(input space):输入的所有可能取值
2.输出空间(ouput space):输出的所有可能取值
3.实例(instance):具体的输入,通常由特征向量表示(x(1) ,x(2),……,x(n) )
4.特征空间(feature space):所有特征向量存在的空间
5.样本(sample):输入与输出对
6.假设空间(hypothesis space):模型由输入空间到输出空间的映射的集合
由此,根据输入输出变量的不同类型,给了监督学习不同的名称:
1.输入与输出变量均为连续变量的预测问题称为回归问题(如支持向量回归SVR输出 wx+b,即某个样本点到分类面的距离,是连续值,所以是回归模型)
2.输出变量为有限个离散变量的预测成为分类问题(如二分类问题的输出为-1:反类,+1:正类;如支持向量机把这个距离用 sign(·) 函数,距离为正(在超平面一侧)的样本点是一类,为负的是另一类;k邻近法;朴素贝叶斯;决策树、感知机、贝叶斯网络、提升方法、神经网络等)
3.输入输出变量均为变量序列的预测问题成为标记问题(如隐马尔可夫模型、条件随机场。应用:信息抽取,自然语言处理如词性标注、抽取基本名词短语)
三.统计学习三要素
统计学习方法 = 模型 + 策略 + 算法
1.模型
模型就是所要学习的条件概率分布或者决策函数。如SVR输出wx+b、二分类问题的分类器P=(Y|X)或Y=f(X)对于输出实例进行分类。
2.策略
由于输出的预测值f(X)与真实值有差异,用损失函数(loss function)或代价函数(cost function)来度量预测错误的程度。
损失函数为f(X)和Y的非负实值函数,记为L(Y,f(X)),常用的损失函数如下:
(1): 0-1损失函数: L(Y,f(X)) = 1 (Y!=f(X)) , 0 (Y = f(X)).
(3): 平方损失函数: L(Y,f(X)) = (Y - f(X))2
(4): 绝对损失函数: L(Y,f(X)) = |Y - f(X) |
(5): 对数损失函数: L(Y,f(X)) = -log P(Y|X)
损失函数值越小模型就越好.故考察损失函数的期望:E p[ L(Y,f(X))] = ∫X*Y L * P(x,y) dxdy 其中P(x,y)是(X,Y)的联合分布概率。学习的目标就是选择期望风险最小的模型。
但是,实际上如果知道联合分布P(X,Y),便可直接求出P(Y|X),也就不需要学习了。故考察平均损失(经验风险):R(f)= 1/N * ∑i=1-N L(yi,f(xi))
经验最小化认为:经验最小的模型是最优模型,即求解最优化问题 min 1/N * ∑i=1-N L( yi , f(xi) )
结构最小化认为:结构风险最小化求解最优问题 min 1/N * ∑i=1-N L( yi , f(xi) ) +λ * J(f) ,
3.算法
算法是指学习模型的具体算法,一般归结于最优化问题.
若最优化问题有显示解析解,则最优化问题较为简单
若最优化问题没有显示解,则需要用数值计算的方法求解。如何保证找到全局最优解(可能会陷入局部最优解即极值),并使得求解过程最高效成为一个重要的问题。
四. 模型评估与模型选择
模型选择时,不仅要考虑对已知数据的预测能力,还有考虑对未知数据的预测能力(即泛化能力)。
在学习时候,要防止过拟合,进行最优的模型选择,即选择复杂度适当的模型,已达到测试误差最小的目的。
有两种常用的模型选择方法:正则化与交叉验证。
五. 正则化与交叉验证
正则化:正则化是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项,以惩罚某些参数过大使得模拟出现过拟合。
正则化一般具有以下形式:min 1/N * ∑i=1-N L( yi , f(xi) ) +λ * J(f) ,第一项是经验风险,第二项则是正则化项。
交叉验证:交叉验证将数据集分为三部分:训练集(用于训练模型)、验证集(验证模型)、测试集(测试模型)。
交叉验证一般分为三种:简单交叉验证、S折交叉验证、留一交叉验证。
简单交叉验证:随机地将已给数据分为两部分,一部分作为训练集一部分作为数据集。
S折交叉验证:随机地将数据切分为S个大小相同的子集,然后利用S-1个子集的数据训练模型,剩下的用于测试模型。
留一交叉验证:也就是S折交叉验证中当S=N时。
六. 泛化能力
泛化能力:指该方法学习到的模型对未知数据的预测能力。由泛化误差上界定理可知,训练误差越小的模型泛化误差也越小,泛化能力也越强。
七. 生成模型与判别模型
监督学习的方法分为生成方法和判别方法,所学到的模型分别成为生成模型和判别模型。
生成方法:学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型。典型的模型有朴素贝叶斯和隐马尔可夫模型。
判别方法:由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测模型,即判别模型。典型的模型有K近邻法、感知机、决策树、逻辑斯蒂回归、最大熵模型、支持向量机、提升方法和条件随机场。
八. 分类问题
分类:监督学习从数据中学习一个分类模型或分类决策函数,称为分类器,它能对新的输入进行预测。
九. 标注问题
标注问题:标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。标注问题的目标是学习一个模型,使它能对观测序列给出标记序列作为预测。
常用的统计学方法有:隐马尔可夫模型、条件随机场。
十. 回归问题
回归问题:表示输入变量到输出变量之间的映射函数,等价于函数拟合。按变量个数分为一元回归和多元回归。
posted on 2018-08-03 19:54 小青青learner 阅读(366) 评论(0) 收藏 举报
浙公网安备 33010602011771号