**【凸函数的定义】**对于凸集 $D \subset \R^N$ 上的函数 $f: D\to \R$,如果 $\forall \boldsymbol x, \boldsymbol y \in D, \forall \lambda \in [0, 1]$,有:
$$ f(\lambda \boldsymbol x + (1-\lambda) \boldsymbol y) \le \lambda f(\boldsymbol x) + (1-\lambda) f(\boldsymbol y) $$
称 $f$ 为 $D$ 上的下凸函数(另因英语为 convex funcion 又称凸函数);
**【强下凸函数的定义】**如果存在常数 $m > 0$ 使得 $g(\boldsymbol x )= f(\boldsymbol x ) - \frac m 2 \| \boldsymbol x \|^2$ 为下凸函数。那么 $f$ 是强下凸函数,$m$ 为强凸参数。
**【强下凸函数的等价定义】**如果存在常数 $m > 0$ 使得 $\forall \boldsymbol x, \boldsymbol y \in D, \, \forall \lambda \in [0, 1]$,有:
$$ f(\lambda \boldsymbol x + (1-\lambda) \boldsymbol y) \le \lambda f(\boldsymbol x) + (1-\lambda) f(\boldsymbol y) - \frac m 2 \lambda (1-\lambda) \| \boldsymbol x - \boldsymbol y \|^2 $$
那么 $f$ 是强下凸函数,$m$ 为强凸参数。
【拟/准 (quasic-) 下凸函数的定义】:对于凸集 $D \subset \R^N$ 上的函数 $f: D\to \R$,如果 $\forall \boldsymbol x, \boldsymbol y \in D, \forall \lambda \in [0, 1]$,有:
$$ f(\lambda \boldsymbol x + (1-\lambda) \boldsymbol y) \le \max \{ f(\boldsymbol x), f(\boldsymbol y) \} $$
拟下凸函数的弦只需要始终比较高的端点要低即可。
一元情况下,所有单调函数都同时是拟上凸函数与拟下凸函数。
**【强凸、凸、拟凸的关系】**强凸函数一定是凸函数;凸函数一定是拟凸函数。
证明(凸 → 拟凸)
$$ f(\lambda \boldsymbol x + (1-\lambda) \boldsymbol y) \le \lambda f(\boldsymbol x) + (1-\lambda) f(\boldsymbol y) \le \max \{ f(\boldsymbol x), f(\boldsymbol y) \} $$
常见的一元凸函数
任何线性函数 $f(\boldsymbol x; \boldsymbol a) = \boldsymbol a^{\rm T} \boldsymbol x$ 既是 $\R^N$ 上的下凸函数,也是上凸函数。
这是因为 $\forall \boldsymbol x, \boldsymbol y \in \R^N, \forall \lambda \in [0, 1], \, f(\lambda \boldsymbol x + (1-\lambda) \boldsymbol y) = \lambda f(\boldsymbol x) + (1-\lambda) f(\boldsymbol y)$。
所有范数都是凸函数(通过三角不等式可证)。
$y = {\rm tr} (\boldsymbol A^{\rm T} \boldsymbol X)$(矩阵的 F-内积)是凸函数。
任何二次函数 $f(\boldsymbol x; \boldsymbol G, \boldsymbol b) = \frac 12 \boldsymbol x^{\rm T} \boldsymbol G \boldsymbol x + \boldsymbol b^{\rm T} \boldsymbol x$ 是 $\R^N$ 上的严格下凸函数,当且仅当 $\boldsymbol G$ 是正定矩阵。
证明
必要性:
$\forall \boldsymbol x, \, \boldsymbol y \in \R^N, \boldsymbol x \neq \boldsymbol y, \, \forall \lambda \in (0, 1), \, f(\lambda \boldsymbol x + (1-\lambda) \boldsymbol y) < \lambda f(\boldsymbol x) + (1-\lambda) f(\boldsymbol y)$ 可推出 $(\boldsymbol x - \boldsymbol y)^{\rm T} \boldsymbol G (\boldsymbol x - \boldsymbol y) > 0$,过程如下图。
因为 $\boldsymbol x \neq \boldsymbol y$,作 $\boldsymbol z = \boldsymbol x - \boldsymbol y$ 可取遍 $\R^N / \{ \boldsymbol 0 \}$,因而有:$\forall \boldsymbol z \in \R^N / \{ \boldsymbol 0 \}, \ \boldsymbol z^{\rm T} \boldsymbol G \boldsymbol z > 0$,这说明 $\boldsymbol G$ 是正定矩阵。
充分性:
- $\boldsymbol G$ 是正定矩阵,因而 $\forall \boldsymbol z \in \R^N / \{ \boldsymbol 0 \}, \ \boldsymbol z^{\rm T} \boldsymbol G \boldsymbol z > 0$,因而 $\forall \boldsymbol x, \boldsymbol y \in \R^N, \, \boldsymbol x \neq \boldsymbol y, \, \boldsymbol x - \boldsymbol y \neq \boldsymbol 0, \, (\boldsymbol x - \boldsymbol y)^{\rm T} \boldsymbol G (\boldsymbol x - \boldsymbol y) > 0$。过程沿着上图逆着推一次,即证明函数的下凸性。
$f(\boldsymbol X) = -\ln \det \boldsymbol X$($\boldsymbol X \in {\mathcal S_{++}^n}$,即定义域是全体实对称正定矩阵)是凸函数。
证明(未完成)
下面也把 ${\rm det} (\cdot)$ 记为 $| \cdot |$。
任取 $\boldsymbol X \in {\mathcal S_{++}^n}$ 和 $\boldsymbol V \in {\mathcal S}^n$(任意实对称矩阵),作 $g(t) = -\ln \det(\boldsymbol X + t \boldsymbol V)$。
有如下变换(全忘光是怎么回事了)
$$ \begin{align*}
|\boldsymbol X + t \boldsymbol V | &= |\boldsymbol X| \cdot \left|\boldsymbol I + t \boldsymbol X^{-\frac12} \boldsymbol V \boldsymbol X^{-\frac12} \right| \\
&= | \boldsymbol X | \cdot\prod_{i=1}^n (1 + t \lambda_i)
\end{align*} $$
- 其中 $\lambda_i$ 是 $\boldsymbol X^{-\frac12} \boldsymbol V \boldsymbol X^{-\frac12}$ 的第 $i$ 个特征值。
因而:
$$ \begin{align*}
g(t) &= -\ln |\boldsymbol X + t \boldsymbol V | \\
&= -\ln \left( | \boldsymbol X | \cdot\prod_{i=1}^n (1 + t \lambda_i) \right) \\
&= -\ln |\boldsymbol X| - \sum_{i=1}^n \ln (1 + t \lambda_i)
\end{align*} $$
可知 $g$ 关于 $t$ 是凸的,根据下文的「凸函数的直线截取充要条件」可以知道 $f$ 关于 $\boldsymbol X$ 是凸的。
如果 $f, f_1, f_2, \cdots, f_M: D \to \R$ 均是定义在凸集 $D \subset \R^N$ 上的下凸函数:
1. 的证明
$\forall \boldsymbol x, \boldsymbol y \in D, \forall \lambda \in [0, 1], \, f(\lambda \boldsymbol x + (1-\lambda) \boldsymbol y) \le \lambda f(\boldsymbol x) + (1-\lambda) f(\boldsymbol y)$ 可推:
$$ \alpha f(\lambda \boldsymbol x + (1-\lambda) \boldsymbol y) \le \lambda \alpha f(\boldsymbol x) + (1-\lambda) \alpha f(\boldsymbol y) $$
2. 的证明
$\forall \boldsymbol x, \boldsymbol y \in D, \, \forall \lambda \in [0, 1]$:
- $f_1(\lambda \boldsymbol x + (1-\lambda) \boldsymbol y) \le \lambda f_1(\boldsymbol x) + (1-\lambda) f_1(\boldsymbol y)$;
- $f_2(\lambda \boldsymbol x + (1-\lambda) \boldsymbol y) \le \lambda f_2(\boldsymbol x) + (1-\lambda) f_2(\boldsymbol y)$。
两式求和得到:
$$ (f_1+f_2)(\lambda \boldsymbol x + (1-\lambda) \boldsymbol y) \le \lambda (f_1+f_2)(\boldsymbol x) + (1-\lambda) (f_1+f_2)(\boldsymbol y) $$
3. 的证明:需要下水平集的定义。