G0-Three-Learning-Principles

在 ML 中三个关键的锦囊妙计，一定要注意、遵循。

Occam’s Razor

如无必要，勿增实体

Entities must not be multiplied beyond necessity. ——William of Occam (1287-1347)

奥卡姆剃刀之意，就是除去所有不必要的东西，使得尽可能精简。这在之前的学习中也多有体现：尽可能使用最简单的模型来拟合数据。

简单的模型有两个角度的含义：

假设与假设集之间数量的联系是：

从直观上看，越简单就越好：越简单的假设集 $H$ 得到的 $m_{H} (N)$ 越小，这样虽然完全拟合当前数据的概率 $\frac{m _{H} ( N )}{2 ^{N}}$ 较小，但是在更广范围内拟合未知数据的概率却上升了：

这给我们的经验是，在进行 ML 训练时，从线性模型做起，而不要选择过度复杂的模型。

无偏采样才能获得无偏模型

If the data is sampled in a biased way, learning will produce a similarly biased outcome.

从 VC Dimension 的角度看这句话，就是来自分布 $P_{1} (x, y)$ 的数据进行训练的模型，在测试时分布却是 $P_{2}$ ，这样分布的差异会导致 VC bound guarantee 失效。

因此，要使 VC bound 成立，训练、测试时应当处于同一分布 $P$ ：

林老师举了一个自己遇到的例子：在 Netflix 的推荐系统改善竞赛中，林老师做出一个验证时改进了 $13%$ 的模型，但是在最终测试时却没有达到竞赛的要求，问题就是在于林老师的验证集是随机抽样的，但 Netflix 测试时选取的是用户最后观看影片的记录，其随着时间推移而权重上升：

这给我们的经验是，尽量使得训练场景与测试场景相同（相近）。

要注意偷看数据的影响

If a data set has affected any step in the learning process, its ability to access the outcome has been compromised.

我们在前文提到，对数据集可视化后再选取模型，这样的行为是危险的，因为没有评估人在选择模型时的主观能动性，人的建模能力比算法要强得多。因此为了 VC bound 的可信，我们不能有偷看数据的行为。

这里 “偷看数据”之意其实远不止肉眼的观察，更细节的是在利用数据进行训练时：

这个问题中尝试对货币贸易数据进行评估，前 6 年做训练，后 2 年做测试，如果直接使用 8 年的数据进行训练，那就是“偷看了数据”（snooping），将会导致过于乐观的估计：
因此要避免偷看数据，就要确保训练集和测试集的分离，模型训练只能使用训练集，测试集一定要保证“干净、保密”

另外，我们在阅读论文并逐步改进时，也是一种 snooping：

这就是所谓“站在巨人的肩膀上”：
这时相当于所有的论文都组成一篇 big paper ，最终其 VC Dimension 是 $d_{V C} (m ⋃ H_{m})$ ，越靠后的作者就会基于越多的前人数据，这样不可避免地就会导致偷看数据，进而导致 bad generalization

要解决偷看数据，就必须遵循以下几个原则：