60-Theory-of-Generalization

Restriction of Break Point

上节课我们猜测了 break point 对 $m_{H}$ 的数量级的估计，那么 break point 究竟如何限制其增长的呢？

来讨论这样的情形：当 minimum break point $k = 2$ 时，意味着任意两个输入样本，都不能被假设集 $H$ 完全 shatter，

那么当输入样本数 $N = 1$ 时， $m_{H} = 2$ ；当 $N = 2$ 时， $m_{H} = 3 < 4$ ；当 $N = 3$ 时呢？此时 $m_{H} = 4 ≪ 8$ ，
可以看出，break point k 极大程度地限制了 $m_{H}$ 可以取得的最大值，回想之前的猜测， $m_{H} \leq maximum possible m_{H} given k \leq O (p o l y (N))$

练习：k=1 时的 $m_{H}$ 最大值

Bounding Function: Basic Cases

我们定义 bounding function —— $B (N, k) : maximum possible m_{H (N)} given break point k$ ，如果能够判断 $B (N, k) \leq O (p o l y (N))$ ，那么之前对 $m_{H}$ 的估计也就必然成立：

$B (N, k)$ 实际上是一个组合数，其等于 元素都只取自 $(\times, \circ)$ 的、长度为 N 的、不能被长度为 k 的子向量所 shatter 的向量的数量 ；
$B (N, k)$ 实际上与假设集 $H$ 的具体内容无关，例如 $B (N, 3)$ 既可以表示 positive intervals 问题，又可以表示 1D perceptrons 问题，越抽象的函数越是需要少的依赖；
如此，我们可以填写这样的表以期找出 $B (N, k)$ 的关系：

Bounding Function: Inductive Cases

现在，我们来尝试找出上面矩阵的下半三角部分的规律： $B (4, 3)$ 表示 4 个输入样本时，那么必然与 3 个输入样本有关，我们尝试找出 $B (4, 3)$ 与 $B (3, ?)$ 的关系：

- 注意这里 dichotomies set 的数量为 $2^{16}$ ，是怎么算出来的呢？一个 dichotomy 中有 4 个元素，故有 $2^{4}$ 种 dichotomy，而 dichotomies set 是指 dichotomy 有几种选择方法，故总共 $2^{2^{4}}$ 种；
对这 11 种 dichotomy 进行分类：其中橙色部分是两两有 3 个元素完全相同的，而紫色部分则没有；
记 $B (4, 3) = 11 = 2 α + β$ ，其中 $α + β$ 表示 3 个输入样本 $(x_{1}, x_{2}, x_{3})$ 时 dichotomies 的数量，于是将 $B (4, 3)$ 表示的不能由 3 个子向量 shatter 的问题 缩小为在 3 个输入中不能被 3 个长度的子向量 shatter 的问题，即 $B (3, 3)$ ；
更进一步地， $α$ 表示对成对的 $x_{4}$ 来说，在输入样本 $(x_{1}, x_{2}, x_{3})$ 上 dichotomies 的数量，从而 $B (4, 3)$ 又缩小为 3 个输入中不能被 2 个长度的子向量 shatter 的问题，即 $B (3, 2)$ ；
将这两个不等式联立，我们可以得知：代换其中的 4 和 3，我们得到 $B (N, k) \leq B (N - 1, k) + B (N - 1, k - 1)$ 这个递推关系式，即 $m_{H}$ 的上界的上界；