By Z.H. Fu
https://fuzihaofzh.github.io/blog/
今天来研究一下正定矩阵的几何意义。对于线性代数中的概念,还是要结合具体的问题,才能理解其物理意义。而最后往往能发现,矩阵往往是以前学的数学中的某个量的推广(一个标量或向量)。先来看一下正定矩阵的具体定义。
对于矩阵$\mathbf{M}$,若对任意向量$\mathbf{Z}$满足:
$$\mathbf{z}^\mathrm{T}\mathbf{Mz}$$
则称矩阵$\mathbf{M}$为正定矩阵。
下面就两个领域浅谈正定矩阵的几何意义。
多元函数微积分
还记得一元函数的泰勒展开么?公式如下:
f(x)=f(a)+1!f′(a)(x−a)+2!f(2)(a)(x−a)2+⋯++n!f(n)(a)(x−a)n+Rn(x)
在一元微积分中,导数表示的是在某一点对原函数的最佳线性近似,那么在多远微积分中,同理,多元函数中也有一个用于表示对原函数最佳逼近的东西,
多元函数F:Rn↦Rm,在P点的最佳线性逼近为:
F(x)=F(p)+JF(x−p)+o(x−p)
其中,JF就是雅克比矩阵(就是很多个偏导构成一个矩阵)定义如下:
JF=⎣⎢⎢⎢⎢⎡∂x1∂F1∂x1∂F2⋮∂x1∂Fm∂x2∂F1∂x2∂F2⋮∂x2∂Fm⋯⋯⋱⋯∂xn∂F1∂xn∂F2⋮∂xn∂Fm⎦⎥⎥⎥⎥⎤
因此,雅克比矩阵就是导数向多元函数空间中推广。但由于因变量有很多个,已经不存在用导数来判断极值的问题了。
下面考虑一个特殊的情况,即F:Rn↦R的情形,这个时候,可以看出,
JF=[∂x1∂F,∂x2∂F,⋯,∂xn∂F]
这就是原函数F的梯度,我们知道,当梯度等于0的时候,原函数取极值,这也就对应着一阶导数等于零的时候原函数取极值。这个推广的脉络如下:
R↦R |
Rn↦R |
Rn↦Rm |
导数 |
梯度 |
雅克比矩阵 |
导数的几何意义表示在x轴上的变化dx在影射到y轴上的变化的一个比例关系,同样,雅克比表示了从Rn影射到$ \mathbb{R}^m$的一个比例变化关系,因此常用于多元函数微积分的坐标变换中。
海森矩阵
梯度是一阶导在Rn↦R上的推广,那么这类影射是否有二阶导的推广?我们继续考虑这类特殊的影射的“二阶导”,就是海森矩阵。
定义:
JF=⎣⎢⎢⎢⎢⎢⎢⎡∂x12∂2f∂x2x1∂2f⋮∂xnx1∂2f∂x1x2∂2f∂x22∂2f⋮∂xnx2∂2f⋯⋯⋱⋯∂x1xn∂2f∂x2xn∂2f⋮∂xn2∂2f⎦⎥⎥⎥⎥⎥⎥⎤
类比一元函数的极值判定,当P点一阶导为0,二阶导大于零时,是极小值,当P点一阶导为0,二阶导小于零时,是极大值。我们可以得出多元函数的极值点判定。
- 当H是正定矩阵时,临界点P是一个局部的极小值。
- 当H是负定矩阵时,临界点P是一个局部的极大值。
- H=0,需要更高阶的导数来帮助判断。
- 在其余情况下,临界点P不是局部极值。
最小作用量
以下说明正定矩阵在物理上的应用。(来自豆瓣)
物理上有个定理叫做最小作用量原理,这是力学的基础。这个定理说,粒子总是沿着作用量极小的那条路径运动的。
作用量说白了就是粒子的动能和势能的差。大家都知道动能正比于速度的平方。但是你考虑粒子未必只有一个独立的速度分量,特别是那些由许多粒子构成的系统,可能会有成千上万个速度。所以一般来说,动能是速度的二次型。也就是说,可以写成中间一个矩阵,速度矢量夹在两边。中间那个矩阵地位与质量相当,有时就称为质量矩阵。
好了,现在我们有一个很重要的要求,就是质量矩阵必须是正定的。
为什么呢?因为正定矩阵的二次型也是正定的,也就是说最少最少也要是0.
作用量要极小化,如果质量矩阵不是正定的,那么动能就可以是负的。这样我们如果使某些速度无限地增大,动能就越来越负,作用量就没有底了,怎么极小化呢。所以质量矩阵的正定性是能够实现作用量极小的要求,一切物理上合理的系统都应该具有正定的质量矩阵。
可以看出,一般的像质量一样的东西,推广到矩阵之后,必须得有正定的性质才行。正定,说明物理上可以实现。