机器学习ML.2 :: Introduction | 简介 (2)
3. Supervised Learning | (有)监督学习
在监督学习中,我们给出一个训练集,这个训练集中的样本告诉学习算法什么是我们希望它预测出来的正确答案。例如房子的价格或者是肿瘤为良性还是恶性。
有监督学习可以分为回归和分类两种,其中回归问题的输出值为连续值,而分类问题的输出则是离散值。上述的房价预测即是回归问题,预测肿瘤是良性或恶性则是分类问题。
让我们从少量样本的有监督学习开始讲起。假设我们有一个数据集,包含了在Portland, Oregon的47套房子的居住面积和出售价格。

我们将这些数据绘制到坐标系中:

给出了这样的数据,我们如何建立以居住面积为自变量,出售价钱为应变量的函数,去预测其它房子的价格呢?
为了便于将来的符号表示,我们用x(i)表示“输入”变量(在这个例子中是居住面积),也叫做输入特征(features),用y(i)表示我们希望预测的“输出”或者目标(target)变量(出售价格)。一对(x(i), y(i))叫做一个训练样本(training example),而我们希望用于学习的数据集——一序列的m个训练样本{(x(i), y(i)); i = 1,...,m}——被叫做训练集(training set)。注意,这里的上标“(i)”仅仅只是表示训练样本的序号,跟幂次没有任何的关系。我们使用X来表示输入值的空间,用Y表示输出值的空间,在这个例子中,X = Y =R(实数集)。
将有监督学习描述得更正式些,我们的目标是,当给定一个训练集时,去学习一个函数h:X→Y使得h(x)是一个良好的针对相关的y的预测器。由于历史的原因,这个函数h被叫做假设(hypothesis)。看下图,有监督的学习就是这样进行的。

当我们要预测的目标变量是连续的值时,就像前面提到的房子售价的例子一样,我们称这种学习问题为回归(regression)问题。当y只能取几个有限的离散值时(比如,给出居住面积,预测这个住所是普通房子还是公寓),我们称之为分类(classification)问题。
cs229-notes1-supervised_learning.pdf
资源来自Andrew Ng教授的主页
未完待续……

浙公网安备 33010602011771号