正如 HMM 对应的有向图模型对应贝叶斯网络,CRF 对应的无向图模型对应马尔科夫随机场。下面介绍之。
无向图模型,不使用有向边表示谁是因谁是果,用无向边表示属性间存在关联。
无向图模型有两个关键性质:① 图的因子分解(表示了图如何反映一个随机向量的分布);② 图的马尔可夫性(表示了图如何反映属性间的条件独立性),而且这两个性质是一体两面的,当 PDF 恒正时,从一者能推出另一者。
先来给出一些关于团的定义。
下面的例子,$\{ 0, 1, 4 \}, \{ 0, 4, 5 \}, \{ 1, 2, 4 \}, \{ 3, 4 \}$ 是极大团,最大团是前三个。
无向图因为边没有方向,因而联合分布和有向图的联合分布 $p(x_1, x_2, \cdots, x_n) = \prod_{i=1}^d P(x_i \, | \, \Pi_i)$ 不太一样。可以用这样的方法描述一个 $d$ 维随机变量 $\boldsymbol x$ 的联合分布与一个无向图 $G=\langle V, E\rangle$ ($|V|=d$)之间的关系:
为图的每个极大团 $C \in {\mathcal C}(G)$ 赋予一个非负函数 $\psi_C(x_{c[1]}, x_{c[2]}, \cdots, x_{c[|C|]})$(称为势函数),然后定义联合分布为「基于极大团的无向图因子分解」,如下:
$$ p(x_1, x_2, \cdots, x_d) = \frac 1 Z \prod_{C \in {\mathcal C}(G)} \psi_C(X_C) $$
其中归一化因子 $Z = \int\int\cdots \int \left( \prod_{C \in {\mathcal C}(G)} \psi_C(X_C) \right) {\rm d} x_1 \cdot {\rm d} x_2 \cdot \cdots \cdot {\rm d} x_d$,以满足 $\int\int\cdots \int \left( p(x_1, x_2, \cdots, x_d) \right) {\rm d} x_1 \cdot {\rm d} x_2 \cdot \cdots \cdot {\rm d} x_d = 1$,很多任务往往不需要获得 $Z$ 的精确值。
顺带一提,团的图像描述是这样的:
目前我们已经能把图的结构和随机向量变量的分布挂起钩来,但是还是缺少对各项目间依赖关系的具体描述。
随机场:一个由若干个位置组成的整体,每个位置按照某种分布随机赋予一个值,全体就称为随机场。
马尔科夫随机场:在随机场的基础上满足马尔可夫性,可以简单地描述为场中每个位置的值只与其相邻的位置的取值有关。
具体的马尔可夫性有三种表述:
全局马尔可夫性:任意选定不相交节点集合 $A, B, C$ 使得 $C$ 分离$A, B$(见下),那么在给定 时 $A$ 与 $B$ 条件独立:$P(A, B \, | \, C) = P(A \, | \, C) \cdot P(B \, | \, C)$。
分离:对于节点集合 $A, B, C$,如果从 $A$ 中任一节点出发到达 $B$ 中任一节点的任一路径都必然要经过 $C$ 中任意节点,则称 $C$ 分离 (seperates) $A, B$。
局部马尔可夫性:对于任意一个节点 $u$,称与其直接相连的所有节点集合为 $W$($W$ 也被称为 $u$ 的「马尔科夫毯」),其余所有节点为 $O$,在给定 $W$ 时 $v$ 与 $O$ 条件独立:$P(v, O \, | \, W) = P(v \, | \, W) \cdot P(O \, | \, W)$。
成对马尔可夫性:对于任意两个没有边直接连接的节点 $u, v$,称其他所有节点集合为 $O$,在给定 $O$ 时 $u, v$ 条件独立:$P(u, v \, | \, O) = P(u \, | \, O) \cdot P(v \, | O)$。
- 当 PDF / PMF (概率密度/质量函数) 严格为正的时候,三个马尔科夫性质相互等价;就算不满足这个条件,从 1 也可推出 2,继而推出 3。
回顾条件独立性的作用
条件独立性的作用:一旦三个属性 $X, Y,Z$ 之间有 $X \perp Y \, | \, Z$ 的关系,就能够像这样分解联合分布 $p_{XYZ}(x, y, z)$:
$$ p_{XYZ}(x, y, z) = p(x, y \, | \, z)p(z) = p(x \, | \, z) p(y \, | \, z) p(z) = g(x, z ) h(y, z) $$
Hammersley-Clifford-Besag 定理:只要概率分布严格为正 ,无向图模型如果满足马尔科夫性质,那么它可以用「基于极大团的无向图因子分解」对联合分布进行分解;反过来亦然。
一般对于任意极大团 $Q$,势函数 $\psi_Q(\boldsymbol x_Q)$ 一般使用如下的指数形式保证其严格为正:
$$ \psi_Q(\boldsymbol x_Q) = {\rm e} ^{-H_Q(\boldsymbol x_Q)}, \ \ \ H_Q(\boldsymbol x_Q) = \sum_{u, v \in Q, u \neq v} \alpha_{uv} x_u x_v + \sum_{v\in Q}\beta_v x_v $$