A 正交投影的概念
一个简单的例子是 Oxyz 空间正交投影到 xOy 空间的矩阵 $\begin{bmatrix}
1 & 0 & 0 \\
0 & 1 & 0 \\
0 & 0 & 0 \\
\end{bmatrix}$,它将 $z$ 值直接置 0。
请注意正交投影显然不是正交变换(首先就不保持长度),也不对应正交矩阵。
A1 子空间的正交
i. 子空间正交的定义
- 对于内积空间 $V^n$ 中的两个子空间 $V_1, V_2$,如果 $\forall \ \boldsymbol x_1 \in V_1, \forall \ \boldsymbol x_2 \in V_2, \ (\boldsymbol x_1, \boldsymbol x_2) = 0$,称 $V_1 \perp V_2$。
ii. 子空间正交的性质
- $V_1 \cap V_2 = \{ \boldsymbol 0 \}$。
- $\dim(V_1+V_2) = \dim V_1 + \dim V_2$ ,即 $V_1 + V_2$ 一定为直和。
A2 内积空间的正交分解
i. 内积空间正交分解的定义
- 对于内积空间 $V^n$ 中的两个子空间 $V_1, V_2$,如果 $V_1 \perp V_2$ 且 $V = V_1 + V_2$,称它们互为正交补空间,或者说 $V_1, V_2$ 是 $V$ 的一对正交分解,记为 $V = V_1 \otimes V_2$。
ii. 寻找与给定子空间能正交分解全空间的另一子空间
- 设 $V_1$ 是 $V^n$ 的一个子空间,$\dim V_1 = r$,那么一定存在唯一的子空间 $V_2$ ,使得 $V = V_1 \otimes V_2$。
- 有 $\dim V_2 = n - r$。
- 如果给定了在 $V^C$ 中的一组向量 $(\boldsymbol \alpha_1, \boldsymbol \alpha_2, \cdots, \boldsymbol \alpha m)$(以行向量形式构成矩阵 $\boldsymbol A{m \times C}$),方程组 $(\boldsymbol \alpha_1, \boldsymbol x)=0, (\boldsymbol \alpha_2, \boldsymbol x)=0, \cdots, (\boldsymbol \alpha_m, \boldsymbol x)=0$(即 $\boldsymbol A \boldsymbol x = \boldsymbol 0$)的解空间,即为能求解能够与向量组所张成子空间 $V_1$ 来正交分解 $V^C$ 的另一子空间 $V_2$。这就符合了 ${\rm null}(\boldsymbol A) = C - {\rm r}(\boldsymbol A)$,其证明矩阵的「行空间」与「零空间」正交构成 $V^C$。
iii. 正交分解对向量的关系
- 如果内积空间有正交分解 $V = V_1 \otimes V_2$,那么 $\forall \ \boldsymbol x \in V$ 可以唯一地表示为 $\boldsymbol x = \boldsymbol x_1 + \boldsymbol x_2$。其中 $\boldsymbol x_1 \in V_1, \boldsymbol x_2 \in V_2$。
A3 正交投影变换及其矩阵
i. 正交投影变换的定义
- 对于「2. iii.」所述 $\forall \ \boldsymbol x \in V, \ \boldsymbol x = \boldsymbol x_1 + \boldsymbol x_2$ 这唯一分解形态,如果定义变换 $\sigma(\boldsymbol x) = \boldsymbol x_1$,则称其为沿 $V_2$ 到 $V_1$ 的正交投影变换。
ii. 正交投影变换的性质
- 此变换的值域(列空间)$R(\sigma) = {\rm cols} \, \sigma =V_1$,核空间 $\ker \sigma = V_2$。
- 事实上行空间也是 $V_1$,因为下面要讲到矩阵的转置等于自身。
- 这个变换可证是线性的(证略)。
iii. 正交投影变换的矩阵
- 当 $V^n$ 的一组基为 $\boldsymbol e_1, \boldsymbol e_2, \cdots, \boldsymbol e_k, \boldsymbol e_{k+1}, \cdots, \boldsymbol e_n$(称为基 $E$),且正好正交分解成 $V_1$:$\boldsymbol e_1, \boldsymbol e_2, \cdots, \boldsymbol e_k$ 和 $V_2$:$\boldsymbol e_{k+1}, \boldsymbol e_{k+2}, \cdots, \boldsymbol e_n$ 时(称其为标准形态),在此基 $E$ 下有正交投影变换的标准形态矩阵为 $\boldsymbol A = \begin{bmatrix}
\boldsymbol E_k & \boldsymbol O \\
\boldsymbol O & \boldsymbol O_{n-k} \\
\end{bmatrix}$。
- 如果选取的各个轴虽然是在基 $E$ 中,但不是正好按顺序前半和后半,而是选取一部分,也就是 $\boldsymbol E_n$ 中保留对应轴向的部分即可(可以理解为作换轴变换)。
- 如果选取的各个轴不是基 $E$ 的,那么需要做更通用的正交变换,如果从到基 $E$ 到基 $E'$ 的过渡矩阵为 $\boldsymbol P$,正交投影变换在新基 $E'$ 下的矩阵就应该表现为 $\boldsymbol P^{-1}\boldsymbol A \boldsymbol P$。
iv. 正交投影矩阵的等价条件
- 对 $n$ 阶实方阵 $\boldsymbol A$ 而言,以下三个条件等价:
- $\boldsymbol A$ 是正交投影矩阵。
- $\boldsymbol A = \boldsymbol A^{\rm T} \boldsymbol A$。
- $\boldsymbol A^2 = \boldsymbol A = \boldsymbol A^{\rm T}$。
B 一维正交投影矩阵
B1 引入一维正交投影矩阵
B1-1 定义与构造
-
考虑最简单的任务。$N$ 维空间 $\R^N$ 中,设置一个非零向量 $\boldsymbol \alpha \neq \boldsymbol 0$ 代表其指定的过原点直线,如何得到任意向量 $\boldsymbol x$ 在其上的正交投影向量 $\boldsymbol y$?
-
显然 $\boldsymbol y \parallel \boldsymbol x$ 即 $\boldsymbol y= \lambda \boldsymbol x$。我们已知正交投影工具能直接获得长度 $\| \boldsymbol y \| = {\rm {Prj}}_{\boldsymbol a} \boldsymbol x = \frac{\boldsymbol a^{\rm T} \boldsymbol x}{\| \boldsymbol a \|}$(参见向量代数部分),因而只需要乘上标准化后的方向向量 ${\rm norm} \, \boldsymbol a = \frac {\boldsymbol a}{\| \boldsymbol a \|}$ 即可:
$$
\boldsymbol y = {\rm {Prj}}_{\boldsymbol a} \boldsymbol x \cdot {\rm norm} \, \boldsymbol a = \frac {\boldsymbol a^{\rm T} \boldsymbol x}{\| \boldsymbol a \|^2} \boldsymbol a = \frac {\boldsymbol a^{\rm T} \boldsymbol x}{\boldsymbol a ^{\rm T} \boldsymbol a} \boldsymbol a
$$
-
可能很难察觉,但是能够乾坤挪移成这个样子,其中 $\boldsymbol a\boldsymbol a^{\rm T}$ 是 $N \times N$ 矩阵。
$$
\boldsymbol y = \frac {\boldsymbol a\boldsymbol a^{\rm T}}{\boldsymbol a ^{\rm T} \boldsymbol a} \boldsymbol x
$$
-
因而对于任何一个 $\boldsymbol a \in \R^{N} / \{\boldsymbol 0\}$,作矩阵 $\boldsymbol P(\boldsymbol a) = \frac {\boldsymbol a\boldsymbol a^{\rm T}}{\boldsymbol a ^{\rm T} \boldsymbol a}$ 即可表示能够将任意向量正交投影到 $\boldsymbol a$ 所表示直线上的变换。
B1-2 性质
-
$\boldsymbol P(\boldsymbol a)$ 满足如下三个基本性质:
- 对称性 $\boldsymbol P^{\rm T}(\boldsymbol a) = \boldsymbol P(\boldsymbol a)$,因为 $\left ( \frac {\boldsymbol a\boldsymbol a^{\rm T}}{\boldsymbol a ^{\rm T} \boldsymbol a} \right )^{\rm T} = \frac {\boldsymbol a\boldsymbol a^{\rm T}}{\boldsymbol a ^{\rm T} \boldsymbol a}$。
- 幂等性 $\boldsymbol P^2(\boldsymbol a) = \boldsymbol P(\boldsymbol a)$,因为 $\frac {\boldsymbol a\boldsymbol a^{\rm T}}{\boldsymbol a ^{\rm T} \boldsymbol a} \frac {\boldsymbol a\boldsymbol a^{\rm T}}{\boldsymbol a ^{\rm T} \boldsymbol a} =
\frac {\boldsymbol a\boldsymbol a^{\rm T}}{\boldsymbol a ^{\rm T} \boldsymbol a}$。
- ${\rm rank} \, \boldsymbol P(\boldsymbol a) = 1$,因为 ${\rm rank} \, \boldsymbol a=1$ 可推导 ${\rm rank} \, \frac {\boldsymbol a\boldsymbol a^{\rm T}}{\boldsymbol a ^{\rm T} \boldsymbol a} =1$。
-
另外,留意到 $\boldsymbol P(\boldsymbol a) = \boldsymbol P(k\boldsymbol a)$,而且如果 $\boldsymbol a$ 是单位向量,可以直接表示为 $\boldsymbol P(\boldsymbol a) = \boldsymbol a \boldsymbol a^{\rm T}$。
-
另外,$\boldsymbol P(\boldsymbol a)$ 的列空间就是 $\boldsymbol a$ 张成的空间(也就是 $\boldsymbol a$ 所表示直线)。
因为 $\boldsymbol a\boldsymbol a^T = (a_1\boldsymbol a, a_2\boldsymbol a, \cdots, a_N\boldsymbol a)$,因而 $\boldsymbol P(\boldsymbol a) = \left( \frac {a_1} {\| \boldsymbol a \|^2}\boldsymbol a, \frac {a_2} {\| \boldsymbol a \|^2}\boldsymbol a, \cdots, \frac {a_N} {\| \boldsymbol a \|^2}\boldsymbol a \right)$,也就是说 $\boldsymbol P(\boldsymbol a)$ 的各个列向量都是 $\boldsymbol a$ 的某个倍数。