样例(example):拥有标记信息的示例,称为样例 $(\boldsymbol x, y)$。
注:如果将标签看作对象本身的一部分,样例可又称样本。
标签空间 / 输出空间:所有标签的集合 ${\mathcal Y}$。
回归(regression):预测的 $y$ 是连续值。
分类(classification):预测的 $y$ 是离散的、而且是类别的。
「类别的」和「离散的」之间的区别
类别的 (categorical):认为各个取值相互正交。一般用 one-hot 编码表示,如对于输出空间 ${\mathcal Y}=$ { 苹果, 梨子, 水蜜桃 },将其中各项编码为 $[1, 0, 0], [0, 1, 0], [0, 0, 1]$,两两类别之间的距离均为 $\sqrt 2$。我们不会说「苹果比梨子更像水蜜桃」,因为这三者是不同的类别。
离散的 (discrete):如 0, 1, 2 三个取值的一个空间,虽然是离散的空间,但各取值排布在一个轴上,0 与 1、1 与 2 之间的距离均为 1,而 0 与 2 之间的距离为 2,我们可以说 1 比 2 更要接近 0。
因而,「类别的」和「离散的」之间的区别可以理解为 A, B, C 和 1, 2, 3 之间的区别。「类别的」一定是「离散的」,但「离散的」并不一定是「类别的」。
一些数据集划分的原则
- $S$ 要尽可能大,以让训练学习到 $D$ 的规律。
- 测试集至少包含 30 个样例,以获得较稳定准确的评估结果。
- 常见将 70% ~ 90% 样本用于训练,其余用于测试。
将数据集 $D$ 划分为两个互斥的集 $S, T$。有直接采样和分层采样两种方法。一般会采用多次随机采样。
将数据集 $D$ 划分为 $k$ 个大小相近的互斥集 $D_1, D_2, \cdots, D_k$,每次选择一个集作为测试集,其余作为训练集,进行 $k$ 次训练和测试,最终返回评估指标的均值。一般 $k=5, 10, 20$。
对于有 $M=|D|$ 个样本的数据集 $D$,有放回地采 $M$ 次样构成训练集 $S$(很可能存在重复样本),再将 $D$ 中没有被采过的部分去构成测试集 $T$。
大多数学习算法都有需要人工设定的参数,这类需要人工设定而非能自动学习的参数被称为超参数(hyper-parameter)。人工调节超参数的过程称为调参 (parameter tuning)。