A 机器学习基本术语

B 将数据集 $D$ 进行训练集 $S$ 与测试集 $T$ 的划分

一些数据集划分的原则

B-1 留出法 (hold-out)

将数据集 $D$ 划分为两个互斥的集 $S, T$。有直接采样和分层采样两种方法。一般会采用多次随机采样。

B-2 $k$ 折交叉验证法 (cross validation)

将数据集 $D$ 划分为 $k$ 个大小相近的互斥集 $D_1, D_2, \cdots, D_k$,每次选择一个集作为测试集,其余作为训练集,进行 $k$ 次训练和测试,最终返回评估指标的均值。一般 $k=5, 10, 20$。

B-3 有放回采样法 (bootstrapping)

对于有 $M=|D|$ 个样本的数据集 $D$,有放回地采 $M$ 次样构成训练集 $S$(很可能存在重复样本),再将 $D$ 中没有被采过的部分去构成测试集 $T$。

Untitled

B-4 超参数、验证集

大多数学习算法都有需要人工设定的参数,这类需要人工设定而非能自动学习的参数被称为超参数(hyper-parameter)。人工调节超参数的过程称为调参 (parameter tuning)。