海森矩阵和半正定矩阵

多元函数的Hessian矩阵就类似一元函数的二阶导。

多元函数Hessian矩阵半正定就相当于一元函数二阶导非负，半负定就相当于一元函数二阶导非正。如果这个类比成立的话，凸函数的Hessian恒半正定就非常容易理解了——这是一元凸函数二阶导必非负的多元拓展。

至于为什么这个类是有道理的，你要这么看。对一元函数f(x)来说，就极值而言，一阶导为0是极值点的必要但不充分条件，一阶导为0切二阶导非负是极小值的充要条件。

为什么呢，因为有泰勒展开 $f(x)=f(x_0)+f'(x_0)\cdot\text{d}x+\frac{1}{2}f''(x_0)\text{d}x^2$ 。如果一阶导为0，二阶导非负，dx不论是多少，f(x)一定不比f(x0)小。

你把多元函数也个泰勒展开，主要区别在于：
1) 二阶导变成了Hessian。
2) 以前只要考虑x怎么变，现在还要考虑y怎么变，x和y怎么一起变，头疼了很多。
以二元为例，
$f(\begin{bmatrix}x & y\end{bmatrix}) = f(\begin{bmatrix}x_0 & y_0\end{bmatrix}) + \begin{bmatrix}\text{d}x & \text{d}y\end{bmatrix} \cdot \begin{bmatrix}f_x' \\ f_y' \end{bmatrix} + \frac{1}{2} \begin{bmatrix}\text{d}x & \text{d}y\end{bmatrix} \cdot \begin{bmatrix}f_{xx}' & f_{xy}' \\ f_{yx}' & f_{yy}' \end{bmatrix} \cdot \begin{bmatrix}\text{d}x \\ \text{d}y\end{bmatrix}$
从一元的情况类比过来，如果一阶导为0，是不是极小值完全取决于不同的dx, dy下，能不能做到最后一项一直非负。

只有对于任意 $\Delta {\bf x}$ , $\Delta {\bf x} {\bf H} \Delta {\bf x}^T$ 一直非负的情况，我们才能说这是极小值。如果 $\Delta {\bf x} {\bf H} \Delta {\bf x}^T$ 一直非正，这就是极大值。如果它一会正一会负，就是鞍点。

然后“对于任意 $\Delta {\bf x}$ , $\Delta {\bf x} {\bf H} \Delta {\bf x}^T$ 一直非负”这是啥？半正定的定义嘛！它就是这么引出来的，也是我们为什么需要半正定这个概念的原因

我们首先假设

函数在定义域上连续
函数在定义域上二阶可导

现在要证明的是：

definition $\Rightarrow$ 1st-order condition
1st-order condition $\Rightarrow$ 2nd-order condition

实际上这些都是充要关系，但是因为题主的问题并没有要求证明必要性我这里就偷懒只证明充分性了。

首先凸函数（一元）的定义是：
任意属于定义域的两个自变量 $x_1$ 和 $x_2$ ，且对于任意 $0 \le \theta \le 1$ ，如果函数 $f\left( \cdot \right)$ 满足 $f\left( {\theta {x_1} + \left( {1 - \theta } \right){x_2}} \right) \le \theta f\left( {{x_1}} \right) + \left( {1 - \theta } \right)f\left( {{x_2}} \right)$ ，那么函数 $f\left( \cdot \right)$ 是凸函数。

直观的理解就是函数曲线上任意两点为短点的线段一定在函数曲线的上方。
多变量函数可以把自变量写成一个向量 ${\bf{x}} = {\left[ {{x_1},{x_2}, \ldots ,{x_n}} \right]}^T$ ，同理对于定义域的任意两个自变量 ${\bf{x}}_1$ 和 ${\bf{x}}_2$ ，以及任意 $0 \le \theta \le 1$ ，如果函数 $f\left( \cdot \right)$ 满足 $f\left( {\theta {\bf{x_1}} + \left( {1 - \theta } \right){\bf{x_2}}} \right) \le \theta f\left( {\bf{{x_1}}} \right) + \left( {1 - \theta } \right)f\left( {\bf{x_2}} \right)$ ，那么函数 $f\left( \cdot \right)$ 是凸函数。

1st-order condition 一阶条件，还是以一元函数为例：
对于定义域内任意两个自变量 $x_1$ 和 $x_2$ ，函数 $f\left( \cdot \right)$ 满足则函 $f\left( {{x_2}} \right) \ge f\left( {{x_1}} \right) + f'\left( {{x_1}} \right)\left( {{x_2} - {x_1}} \right)$ 数 $f\left( \cdot \right)$ 为凸函数。

直观的理解就是函数曲线始终位于任意一点的切线的上方。类似于前面提到的二阶Taylor展开中必须保证二次项非负。推广到多变量函数同理可以写为 $f\left( {{{\bf{x}}_1}} \right) \ge f\left( {{{\bf{x}}_2}} \right) + \nabla f\left( {{{\bf{x}}_2}} \right) \cdot \left( {{{\bf{x}}_1} - {{\bf{x}}_2}} \right)$ ，其中梯度向量 $\nabla f\left( {\bf{x}} \right) = \left( {\frac{{\partial f\left( {\bf{x}} \right)}}{{\partial {x_1}}},\frac{{\partial f\left( {\bf{x}} \right)}}{{\partial {x_2}}}, \ldots ,\frac{{\partial f\left( {\bf{x}} \right)}}{{\partial {x_n}}}} \right)$ 也就是在该点对各个变量求偏导构成的向量。

现在要证明的凸函数有 $f\left( {{x_2}} \right) \ge f\left( {{x_1}} \right) + f'\left( {{x_1}} \right)\left( {{x_2} - {x_1}} \right)$ 的性质。

假设函数 $f\left( \cdot \right)$ 在定义域上是凸函数，那么有：
$\begin{align} f\left( {\theta {{\bf{x}}_1} + \left( {1 - \theta } \right){{\bf{x}}_2}} \right) & \le \theta f\left( {{{\bf{x}}_1}} \right) + \left( {1 - \theta } \right)f\left( {{{\bf{x}}_2}} \right) \\ f\left( {{{\bf{x}}_2} + \theta \left( {{{\bf{x}}_1} - {{\bf{x}}_2}} \right)} \right) &\le f\left( {{{\bf{x}}_2}} \right) + \theta \left( {f\left( {{{\bf{x}}_1}} \right) - f\left( {{{\bf{x}}_2}} \right)} \right) \\ f\left( {{{\bf{x}}_2} + \theta \left( {{{\bf{x}}_1} - {{\bf{x}}_2}} \right)} \right) - f\left( {{{\bf{x}}_2}} \right) &\le \theta \left( {f\left( {{{\bf{x}}_1}} \right) - f\left( {{{\bf{x}}_2}} \right)} \right) \\ \frac{{f\left( {{{\bf{x}}_2} + \theta \left( {{{\bf{x}}_1} - {{\bf{x}}_2}} \right)} \right) - f\left( {{{\bf{x}}_2}} \right)}}{\theta } &\le f\left( {{{\bf{x}}_1}} \right) - f\left( {{{\bf{x}}_2}} \right) \end{align}$
然后稍微变形可以得到 $f\left( {{{\bf{x}}_1}} \right) \ge f\left( {{{\bf{x}}_2}} \right) + \frac{{f\left( {{{\bf{x}}_2} + \theta \left( {{{\bf{x}}_1} - {{\bf{x}}_2}} \right)} \right) - f\left( {{{\bf{x}}_2}} \right)}}{\theta }$
令 $g\left( \theta \right) = f\left( {{{\bf{x}}_2} + \theta \left( {{{\bf{x}}_1} - {{\bf{x}}_2}} \right)} \right)$ ，则 $g\left( 0 \right) = f\left( {{{\bf{x}}_2}} \right)$ ，那么有
$f\left( {{{\bf{x}}_1}} \right) \ge f\left( {{{\bf{x}}_2}} \right) + \frac{{g\left( \theta \right) - g\left( 0 \right)}}{\theta }$ ，当 $\theta$ 趋近于0时，有 $\mathop {\lim }\limits_{\theta \to 0} \frac{{g\left( \theta \right) - g\left( 0 \right)}}{\theta } = g'(0)$ 这一项也就是函数 ${g\left( \theta \right)}$ 在 $\theta=0$ 处的导数值， ${g\left( \theta \right)}$ 实际是 $f\left( {{{\bf{x}}}} \right)$ 与 ${\bf{x}} = {{\bf{x}}_2} + \theta \left( {{{\bf{x}}_1} - {{\bf{x}}_2}} \right)$ 的复合函数，容易求导得 $\frac{{dg}}{{d\theta }} = \left( {{{\bf{x}}_1} - {{\bf{x}}_2}} \right)\frac{{df\left( {{{\bf{x}}_2} + \theta \left( {{{\bf{x}}_1} - {{\bf{x}}_2}} \right)} \right)}}{{d{\bf{x}}}}$ ，由于只要求在 $\theta=0$ 处的导数值所以容易得 ${\left. {\frac{{dg}}{{d\theta }}} \right|_{\theta = 0}} = \left( {{{\bf{x}}_1} - {{\bf{x}}_2}} \right)\frac{{df\left( {{{\bf{x}}_2}} \right)}}{{d{\bf{x}}}} = \nabla f\left( {{{\bf{x}}_2}} \right) \cdot \left( {{{\bf{x}}_1} - {{\bf{x}}_2}} \right)$ ，代入回不等式即可得到
$f\left( {{{\bf{x}}_1}} \right) \ge f\left( {{{\bf{x}}_2}} \right) + \nabla f\left( {{{\bf{x}}_2}} \right) \cdot \left( {{{\bf{x}}_1} - {{\bf{x}}_2}} \right)$

从图形上也可以直观去理解这个推导结果，取函数曲线上两点作直线，被函数图像截断的那部分始终在曲线上方，而其他部分始终在曲线下方，那么这两个点取的无限接近，也就是通常我们说的“割线逼近切线”，那么切线就始终在曲线下方了，曲线不知道高到哪里去了。

现在我们来做第二部分也就是用1st-order condition推导2nd-order condition的部分的证明了。

2nd-order condition的内容就是凸函数的Hessian矩阵半正定。多元Taylor展开如果不熟悉的话可以参考Taylor's theorem的公式自己理解，我这里就不详细展开了，直接写在 $\bf{x_0}$ 点处二阶展开形式：
$f\left( {\bf{x}} \right) = f\left( {{{\bf{x}}_0}} \right) + \nabla f\left( {{{\bf{x}}_0}} \right)\left( {{\bf{x}} - {{\bf{x}}_0}} \right) + \frac{1}{2}{\left( {{\bf{x}} - {{\bf{x}}_0}} \right)^T}{\bf{H}}\left( {{\bf{x}} - {{\bf{x}}_0}} \right)$ ，这里的 $\bf{H}$ 即 $f(\bf{x})$ 在 $\bf{x_0}$ 点处的Hessian矩阵，也可以写作 ${\nabla ^2}f\left( {\bf{x}_0} \right)$ ，可以理解为把梯度向量推广为二阶形式，梯度向量本身也是Jacobian矩阵的一种特例。
$f(\bf{x})$ 的Hessian矩阵第 $i$ 行第 $j$ 个元素为 $f(\bf{x})$ 对第 $i$ 个变量先求导，对第 $j$ 个变量后求导的二阶导数，也就是 ${{\bf{H}}_{ij}} = \frac{{{\partial ^2}f\left( {\bf{x}} \right)}}{{\partial {x_i}\partial {x_j}}}$ ，写成矩阵形式就是：
${\bf{H}} = \left[ {\begin{array}{*{20}{c}} {\frac{{{\partial ^2}f\left( {\bf{x}} \right)}}{{\partial x_1^2}}}&{\frac{{{\partial ^2}f\left( {\bf{x}} \right)}}{{\partial {x_1}\partial {x_2}}}}& \cdots &{\frac{{{\partial ^2}f\left( {\bf{x}} \right)}}{{\partial {x_1}\partial {x_n}}}}\\ {\frac{{{\partial ^2}f\left( {\bf{x}} \right)}}{{\partial {x_2}\partial {x_1}}}}&{\frac{{{\partial ^2}f\left( {\bf{x}} \right)}}{{\partial x_2^2}}}& \cdots &{\frac{{{\partial ^2}f\left( {\bf{x}} \right)}}{{\partial {x_2}\partial {x_n}}}}\\ \vdots & \vdots & \ddots & \vdots \\ {\frac{{{\partial ^2}f\left( {\bf{x}} \right)}}{{\partial {x_n}\partial {x_1}}}}&{\frac{{{\partial ^2}f\left( {\bf{x}} \right)}}{{\partial {x_n}\partial {x_2}}}}& \ldots &{\frac{{{\partial ^2}f\left( {\bf{x}} \right)}}{{\partial x_2^2}}} \end{array}} \right]$
回到上面那个Taylor展开式，对于一个凸函数，我们可以试用1st-order condition得到 $f\left( {\bf{x}} \right) \ge f\left( {{{\bf{x}}_0}} \right) + \nabla f\left( {{{\bf{x}}_0}} \right)\left( {{\bf{x}} - {{\bf{x}}_0}} \right)$ 对于任意的 $\bf{x}$ 和 ${{{\bf{x}}_0}}$ 都成立，那么二次项 $\frac{1}{2}{\left( {{\bf{x}} - {{\bf{x}}_0}} \right)^T}{\bf{H}}\left( {{\bf{x}} - {{\bf{x}}_0}} \right) \ge 0$ 必须对于任意的两个自变量 $\bf{x}$ 和 ${{{\bf{x}}_0}}$ 恒成立，我们这里以增量简写 $\Delta {\bf{x}} = {\bf{x}} - {{\bf{x}}_0}$ ，这个增量可以任意取值，那么需要 $\Delta {{\bf{x}}^T}{\bf{H}}\Delta {\bf{x}} \ge 0$ 对于任意一个 $\Delta {\bf{x}}$ 恒成立，而这就是 $\bf{H}$ 是半正定的充要条件。