正定矩阵的几何意义

By Z.H. Fu https://fuzihaofzh.github.io/blog/ 今天来研究一下正定矩阵的几何意义。对于线性代数中的概念，还是要结合具体的问题，才能理解其物理意义。而最后往往能发现，矩阵往往是以前学的数学中的某个量的推广（一个标量或向量）。先来看一下正定矩阵的具体定义。对于矩阵$\mathbf{M}$，若对任意向量$\mathbf{Z}$满足： $$\mathbf{z}^\mathrm{T}\mathbf{Mz}$$ 则称矩阵$\mathbf{M}$为正定矩阵。下面就两个领域浅谈正定矩阵的几何意义。

多元函数微积分

还记得一元函数的泰勒展开么？公式如下：

f(x)=f(a)+\frac{f'(a)}{1!}(x-a)+\frac{f^{(2)}(a)}{2!}(x-a)^2+\cdots ++\frac{f^{(n)}(a)}{n!}(x-a)^n+R_n(x)

在一元微积分中，导数表示的是在某一点对原函数的最佳线性近似，那么在多远微积分中，同理，多元函数中也有一个用于表示对原函数最佳逼近的东西，
多元函数 $F:\mathbb{R}^n\mapsto \mathbb{R}^m$ ,在 $P$ 点的最佳线性逼近为：

F(\mathbf{x})=F(\mathbf{p})+J_F(\mathbf{x}-\mathbf{p})+o(\mathbf{x}-\mathbf{p})

其中， $J_F$ 就是雅克比矩阵（就是很多个偏导构成一个矩阵）定义如下：

J_F=\begin{bmatrix} \frac{\partial F_1}{\partial x_1} & \frac{\partial F_1}{\partial x_2} & \cdots & \frac{\partial F_1}{\partial x_n}\\ \frac{\partial F_2}{\partial x_1} & \frac{\partial F_2}{\partial x_2} & \cdots & \frac{\partial F_2}{\partial x_n}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial F_m}{\partial x_1} & \frac{\partial F_m}{\partial x_2} & \cdots & \frac{\partial F_m}{\partial x_n} \end{bmatrix}

因此，雅克比矩阵就是导数向多元函数空间中推广。但由于因变量有很多个，已经不存在用导数来判断极值的问题了。
下面考虑一个特殊的情况，即 $F:\mathbb{R}^n\mapsto \mathbb{R}$ 的情形，这个时候，可以看出，

J_F= \left[ \frac{\partial F}{\partial x_1} , \frac{\partial F}{\partial x_2} , \cdots , \frac{\partial F}{\partial x_n}\right]

这就是原函数 $F$ 的梯度，我们知道，当梯度等于0的时候，原函数取极值，这也就对应着一阶导数等于零的时候原函数取极值。这个推广的脉络如下：

$\mathbb{R}\mapsto \mathbb{R}$	$\mathbb{R}^n\mapsto \mathbb{R}$	$\mathbb{R}^n\mapsto \mathbb{R}^m$
导数	梯度	雅克比矩阵

导数的几何意义表示在 $x$ 轴上的变化 $dx$ 在影射到 $y$ 轴上的变化的一个比例关系，同样，雅克比表示了从 $\mathbb{R}^n$ 影射到$ \mathbb{R}^m$的一个比例变化关系，因此常用于多元函数微积分的坐标变换中。

海森矩阵

梯度是一阶导在 $\mathbb{R}^n\mapsto \mathbb{R}$ 上的推广，那么这类影射是否有二阶导的推广？我们继续考虑这类特殊的影射的“二阶导”，就是海森矩阵。
定义：

J_F=\begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 x_2 }& \cdots & \frac{\partial^2 f}{\partial x_1 x_n}\\ \frac{\partial^2 f}{\partial x_2 x_1} & \frac{\partial^2 f}{\partial x_2^2 }& \cdots & \frac{\partial^2 f}{\partial x_2 x_n}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial^2 f}{\partial x_n x_1} & \frac{\partial^2 f}{\partial x_n x_2 }& \cdots & \frac{\partial^2 f}{\partial x_n^2} \end{bmatrix}

类比一元函数的极值判定，当 $P$ 点一阶导为0，二阶导大于零时，是极小值，当 $P$ 点一阶导为0，二阶导小于零时，是极大值。我们可以得出多元函数的极值点判定。

当H是正定矩阵时，临界点P是一个局部的极小值。
当H是负定矩阵时，临界点P是一个局部的极大值。
H=0,需要更高阶的导数来帮助判断。
在其余情况下，临界点P不是局部极值。

最小作用量

以下说明正定矩阵在物理上的应用。（来自豆瓣）

物理上有个定理叫做最小作用量原理，这是力学的基础。这个定理说，粒子总是沿着作用量极小的那条路径运动的。

作用量说白了就是粒子的动能和势能的差。大家都知道动能正比于速度的平方。但是你考虑粒子未必只有一个独立的速度分量，特别是那些由许多粒子构成的系统，可能会有成千上万个速度。所以一般来说，动能是速度的二次型。也就是说，可以写成中间一个矩阵，速度矢量夹在两边。中间那个矩阵地位与质量相当，有时就称为质量矩阵。

好了，现在我们有一个很重要的要求，就是质量矩阵必须是正定的。
为什么呢？因为正定矩阵的二次型也是正定的，也就是说最少最少也要是0.
作用量要极小化，如果质量矩阵不是正定的，那么动能就可以是负的。这样我们如果使某些速度无限地增大，动能就越来越负，作用量就没有底了，怎么极小化呢。所以质量矩阵的正定性是能够实现作用量极小的要求，一切物理上合理的系统都应该具有正定的质量矩阵。

可以看出，一般的像质量一样的东西，推广到矩阵之后，必须得有正定的性质才行。正定，说明物理上可以实现。