单变量的线性回归（Linear Regression with One Variable）

模型表示

　　监督学习中对于每个输入数据来说，我们都给出了 “ 正确的答案 ” 。

　　例如我们之前讨论的房价问题，假设我们的训练集如下表所示：

　　我们将描述这个回归问题的符号标记如下：

　　m：代表训练集中实例的数量

　　x：代表特征/输入变量

　　y：代表目标变量/输出变量

　　(x，y)：代表训练集中的实例

　　(xⁱ，yⁱ)：代表第 i 个观察实例

　　h：代表学习算法的解决方案或函数，也称假设（hypothesis）

　　如上图所示，这就是一个监督学习算法的一个实例，h 代表一个函数/模型，根据输入的 x 值来得到 y 值，其中 y 值对应房子的价格，因此 h 是一个从 x 到 y 的函数映射。因此，我们要解决房价预测问题，我们实际上是要将训练集 “ 喂 ” 给我们的学习算法，进而学习到一个模型 h ，然后我们将要预测的房屋的尺寸作为输入变量输入给 h ，预测出该房屋价格。

　　那么我们该如何表达 h ？一种可能的表达方式为：，因为只有一个特征/输入变量，因此这样的问题叫做单变量回归问题。

　　定义好了函数的形式，接下来我们需要对我们的函数选择合适的参数，其中在房价预测这个例子中函数中的两个参数在数学意义上分别是直线的斜率和截距，我们选择的参数决定了我们得到的直线相对于训练集的准确程度，其中模型所预测的值与训练集中的实际值之间的差距（如下图蓝线）就是建模误差（modeling error）。

　　我们的目标就是选择一组能使建模误差最小的模型参数。即使得代价函数最小：

　　例如下图是一个等高线图，三个坐标分别为，，和

　　可以看出在三维空间中存在一组参数，使得最小。

梯度下降

　　梯度下降是一个用来求函数最小值的算法，我们将使用梯度下降算法来求出代价函数得最小值。

　　其背后思想是：

　　　　开始我们随机选择一组参数，计算代价函数，然后我们选择下一组能让梯度下降最多的参数集合，然后以此类推，知道找到一个局部的最小值点（local minimum），因为我们并没有尝试过所有的参数的组合，所以不能确定我们得到的局部最小值点是否是全局最小值点（global minimum）。选择不同的初始参数集合，可能会找到不同的局部最小值。