0%

正定矩阵的几何意义

By Z.H. Fu
https://fuzihaofzh.github.io/blog/
今天来研究一下正定矩阵的几何意义。对于线性代数中的概念,还是要结合具体的问题,才能理解其物理意义。而最后往往能发现,矩阵往往是以前学的数学中的某个量的推广(一个标量或向量)。先来看一下正定矩阵的具体定义。 对于矩阵$\mathbf{M}$,若对任意向量$\mathbf{Z}$满足: $$\mathbf{z}^\mathrm{T}\mathbf{Mz}$$ 则称矩阵$\mathbf{M}$为正定矩阵。 下面就两个领域浅谈正定矩阵的几何意义。

多元函数微积分

还记得一元函数的泰勒展开么?公式如下:

f(x)=f(a)+f(a)1!(xa)+f(2)(a)2!(xa)2+++f(n)(a)n!(xa)n+Rn(x)f(x)=f(a)+\frac{f'(a)}{1!}(x-a)+\frac{f^{(2)}(a)}{2!}(x-a)^2+\cdots ++\frac{f^{(n)}(a)}{n!}(x-a)^n+R_n(x)

在一元微积分中,导数表示的是在某一点对原函数的最佳线性近似,那么在多远微积分中,同理,多元函数中也有一个用于表示对原函数最佳逼近的东西,
多元函数F:RnRmF:\mathbb{R}^n\mapsto \mathbb{R}^m,在PP点的最佳线性逼近为:

F(x)=F(p)+JF(xp)+o(xp)F(\mathbf{x})=F(\mathbf{p})+J_F(\mathbf{x}-\mathbf{p})+o(\mathbf{x}-\mathbf{p})

其中,JFJ_F就是雅克比矩阵(就是很多个偏导构成一个矩阵)定义如下:

JF=[F1x1F1x2F1xnF2x1F2x2F2xnFmx1Fmx2Fmxn]J_F=\begin{bmatrix} \frac{\partial F_1}{\partial x_1} & \frac{\partial F_1}{\partial x_2} & \cdots & \frac{\partial F_1}{\partial x_n}\\ \frac{\partial F_2}{\partial x_1} & \frac{\partial F_2}{\partial x_2} & \cdots & \frac{\partial F_2}{\partial x_n}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial F_m}{\partial x_1} & \frac{\partial F_m}{\partial x_2} & \cdots & \frac{\partial F_m}{\partial x_n} \end{bmatrix}

因此,雅克比矩阵就是导数向多元函数空间中推广。但由于因变量有很多个,已经不存在用导数来判断极值的问题了。
下面考虑一个特殊的情况,即F:RnRF:\mathbb{R}^n\mapsto \mathbb{R}的情形,这个时候,可以看出,

JF=[Fx1,Fx2,,Fxn]J_F= \left[ \frac{\partial F}{\partial x_1} , \frac{\partial F}{\partial x_2} , \cdots , \frac{\partial F}{\partial x_n}\right]

这就是原函数FF的梯度,我们知道,当梯度等于0的时候,原函数取极值,这也就对应着一阶导数等于零的时候原函数取极值。这个推广的脉络如下:

RR\mathbb{R}\mapsto \mathbb{R} RnR\mathbb{R}^n\mapsto \mathbb{R} RnRm\mathbb{R}^n\mapsto \mathbb{R}^m
导数 梯度 雅克比矩阵

导数的几何意义表示在xx轴上的变化dxdx在影射到yy轴上的变化的一个比例关系,同样,雅克比表示了从Rn\mathbb{R}^n影射到$ \mathbb{R}^m$的一个比例变化关系,因此常用于多元函数微积分的坐标变换中。

海森矩阵

梯度是一阶导在RnR\mathbb{R}^n\mapsto \mathbb{R}上的推广,那么这类影射是否有二阶导的推广?我们继续考虑这类特殊的影射的“二阶导”,就是海森矩阵。
定义:

JF=[2fx122fx1x22fx1xn2fx2x12fx222fx2xn2fxnx12fxnx22fxn2]J_F=\begin{bmatrix} \frac{\partial^2 f}{\partial x_1^2} & \frac{\partial^2 f}{\partial x_1 x_2 }& \cdots & \frac{\partial^2 f}{\partial x_1 x_n}\\ \frac{\partial^2 f}{\partial x_2 x_1} & \frac{\partial^2 f}{\partial x_2^2 }& \cdots & \frac{\partial^2 f}{\partial x_2 x_n}\\ \vdots & \vdots & \ddots & \vdots\\ \frac{\partial^2 f}{\partial x_n x_1} & \frac{\partial^2 f}{\partial x_n x_2 }& \cdots & \frac{\partial^2 f}{\partial x_n^2} \end{bmatrix}

类比一元函数的极值判定,当PP点一阶导为0,二阶导大于零时,是极小值,当PP点一阶导为0,二阶导小于零时,是极大值。我们可以得出多元函数的极值点判定。

  • 当H是正定矩阵时,临界点P是一个局部的极小值。
  • 当H是负定矩阵时,临界点P是一个局部的极大值。
  • H=0,需要更高阶的导数来帮助判断。
  • 在其余情况下,临界点P不是局部极值。

最小作用量

以下说明正定矩阵在物理上的应用。(来自豆瓣)

物理上有个定理叫做最小作用量原理,这是力学的基础。这个定理说,粒子总是沿着作用量极小的那条路径运动的。

作用量说白了就是粒子的动能和势能的差。大家都知道动能正比于速度的平方。但是你考虑粒子未必只有一个独立的速度分量,特别是那些由许多粒子构成的系统,可能会有成千上万个速度。所以一般来说,动能是速度的二次型。也就是说,可以写成中间一个矩阵,速度矢量夹在两边。中间那个矩阵地位与质量相当,有时就称为质量矩阵。

好了,现在我们有一个很重要的要求,就是质量矩阵必须是正定的。
为什么呢?因为正定矩阵的二次型也是正定的,也就是说最少最少也要是0.
作用量要极小化,如果质量矩阵不是正定的,那么动能就可以是负的。这样我们如果使某些速度无限地增大,动能就越来越负,作用量就没有底了,怎么极小化呢。所以质量矩阵的正定性是能够实现作用量极小的要求,一切物理上合理的系统都应该具有正定的质量矩阵。

可以看出,一般的像质量一样的东西,推广到矩阵之后,必须得有正定的性质才行。正定,说明物理上可以实现。