为什么多元向量函数的导数是个矩阵
那是因为要求函数可微,而这个要求其实挺高的。
1函数可微性
微积分的基本理念是利用仿射函数对函数进行近似。如果存在线性函数
那么称函数
给定函数
由
于是
最后一个等式是由于
对于给定的函数 近似
是指存在线性函数
上式中的线性函数
.几何解释
考虑一个
在点 函数曲面与过该点并与 xy-平面垂直的平面之间的交线
的切线构成的平面。
如果点
不妨想象一下在一个光滑的山坡上滑雪时的情形。滑雪板的中心始终与山坡(函数曲面)相切,而你与滑雪板垂直。打个比方,可微就相当于山坡能让你顺畅地滑雪下山,而且能够选不同方向;而如果不可微,可能会让你磕磕绊绊、举步维艰。
再回头看一下一元函数的情况,
对照两个图,是否感觉到: 一元函数的导数推广到多元向量值函数上就应该是一个导数矩阵。但其实背后对应的是可微
这个概念,也正是从可微性导出了雅可比矩阵。
2导数矩阵
那么上文中的线性函数
我们知道,从
根据导数的定义,有
这意味着,对于
可以通过向量中每个元素求极限的方式来计算向量极限。因此,如果记向量值函数
那么有
矩阵
矩阵
.梯度
如果
称为
.Hessian 矩阵
给定函数
其中,
.思考
用上面这些概念可以得出多元函数的二阶近似,
那如果是一个多元向量值函数呢,近似形式会是什么样子呢?
3微分法则
利用函数
.链式法则
如果
.乘积法则
令
.例子
给定矩阵
我们令
如果
特别的,当
4应用举例
已知
即要你求解使
将目标函数改写为,
我们知道,
上式为
两边转置得,
这正是法方程(normal equation),至于它有没有唯一解,那就要看矩阵
⟳参考资料⟲
Tangent plane: http://www.math.ubc.ca/~cwsei/math200/graphics/tangentplane.html
[2]An Introduction to Optimization, Edwin K. P. Chong and Stanislaw H. Żak.: https://www.engr.colostate.edu/~echong/book4/