在这里翻译成有序才合适。
对于一个 $K$ 种类别的离散回归,可认为线性回归的假设函数 $h(\boldsymbol x) = \hat{\boldsymbol w}^{\rm T}\boldsymbol x_+$ 结果围绕一个隐变量 $z$ 上下波动,波动量为 $\epsilon$ 服从标准正态分布 ${\mathcal N}(0, 1)$,且这个隐变量还需要经过间隔阈值 $\theta_1, \theta_2, \cdots, \theta_{K-1}$(认为 $\theta_0 = -\infin, \ \theta_K = +\infin$)的区分后才能得到实际预测的目标 $y$ 值。
$$ z = h(\boldsymbol x) + \epsilon, \ \ \ \ \ \hat y = \begin{cases} 0, & z \le \theta_1 \\ 1, & \theta_1< z \le \theta_2 \\ 2, & \theta_2< z \le \theta_3 \\ \vdots \\ K - 1, & z > \theta_{K-1} \\ \end{cases} $$
那么就可以展开后验概率 $P(\hat y=k \ | \ \boldsymbol x)$:
$$ \begin{align*}
P(\hat y=k \ | \ \boldsymbol x)
&= P(\theta_{k} < z \le \theta_{k+1}) \\
&= P(\theta_{k} - h(\boldsymbol x) < \epsilon \le \theta_{k+1} - h(\boldsymbol x)) \\
&= \Phi(\theta_{k+1} - h(\boldsymbol x)) - \Phi(\theta_{k} - h(\boldsymbol x))
\end{align*} $$
这里的 $\Phi$ 是标准正态分布的累积分布函数 (CDF)。下面写出它的公式,其实不重要(计算机能够直接求值),更重要的是求导之后是我们常见的 PDF。
$$ \Phi(x)=\frac 12 \left(1+{\rm erf}\left(\frac z{\sqrt 2}\right)\right), \ \ \ {\rm erf}(x) = \frac 2 {\sqrt \pi} \int_{0}^{x} {\rm e}^{-t^2} {\rm d }t $$
显然与逻辑回归时差不多,要最大化似然函数 $L(\hat{\boldsymbol w}, \boldsymbol \theta)$:
$$ \begin{align*}
L(\hat {\boldsymbol w}, \boldsymbol \theta) &= \prod_{i=1}^{|D|}p(\hat y = y^{(i)} \ | \ \boldsymbol x^{(i)} ; (\hat {\boldsymbol w}, \boldsymbol \theta)) \\
ll(\hat {\boldsymbol w}, \boldsymbol \theta) &= -\sum_{i=1}^{|D|}\ln p(\hat y_C = y_C^{(i)} \ | \ \boldsymbol x^{(i)} ; (\hat {\boldsymbol w}, \boldsymbol \theta)) \\
\end{align*} $$
💾
⚙️