50-Kernel-Logistic-Regression

Soft-Margin SVM as Regularized Model

继续下文之前回顾一下之前所学的 hard-margin SVM 和 soft-margin SVM 及其对偶问题：

在实际使用中我们通常使用 soft-margin SVM ，因为我们不能确保数据集一定无噪音；
这里推荐两个台大老师 SVM 的实现：
1. 专门解 Linear SVN ：LIBLINEAR — A Library for Large Linear Classification
2. 专门解 Dual Kernel SVM ：LIBSVM — A Library for Support Vector Machines

回想 soft-margin SVM 中我们用 $ξ_{n}$ 作为 margin violation 的标记：

b, w, ξ min \frac{1}{2} w^{T} w + C \cdot n = 1 \sum N ξ_{n} s.t. y_{n} (w^{T} x_{n} + b) \geq 1 - ξ_{n}, and ξ_{n} \geq 0 for all n

由果溯因，如果我们已经确定了 SVM 的参数 $(b, w)$ ，那么违反边界限制的样本点的违反程度 $ξ_{n} = 1 - y_{n} (w^{T} z_{n} + b)$ ，而不违反边界限制的违反程度 $ξ_{n} = 0$ ，因此可以推出 $ξ_{n} = max {1 - y_{n} (w^{T} z_{n} + b), 0}$ ：此时就可以抛去限制，得到 soft-margin SVM 的关系式为：

b, w min \frac{1}{2} w^{T} w + C \cdot n = 1 \sum N max {1 - y_{n} (w^{T} z_{n} + b), 0}

这个形式与正则化的过程十分类似：

min \frac{1}{2} w^{T} w + C \sum err

因此我们不妨将 soft-margin SVM 的关系式就看作 L2 正则化：

min \frac{λ}{N} w^{T} w + \frac{1}{N} \sum err

不过这个关系式并不能直接套用正则化一节中的解法，因为一方面这不是 QP 问题，另一方面 $max$ 函数可能不可微，因此我们使用 $Primal \to Dual \to Kernel$ 的学习路线。

我们在初识 SVM 时就类比过正则化与 SVM 的关系，现在我们进一步考虑 soft-margin 与 L2 正则化的关系：

可以得知，越大的边界限制，对应了越小的 hyperplane 数量，也对应了 L2 正则化中越短的 $w$ ；
而 soft-margin 这个特点其实就对应了正则化中特定的 $err$ ，意即容忍一定量的犯错；
而不论是正则化中的限制 $C$ ，还是 soft-margin SVM 的关系式中最小化目标的系数 $C$ ，其值越大，就对应越小的 $λ$ ，即越小的正则化；

练习：理解 soft-margin SVM 中参数 $C$ 的意义

SVM versus Logistic Regression

回想我们在二元分类问题中的错误评估，都是基于线性模型计算得到的分数 $s = w^{T} z_{n} + b$ 进行处理：

以 PLA 为代表的错误评估为 $err_{0/1} (s, y) = [ys \leq 0]$ ，
而 SVM 的错误评估为 $err_{S V M} (s, y) = max {1 - ys, 0}$ ，
将这两个错误评估函数绘图，则得到：
这表明 SVM 的错误评估是 PLA 的错误评估的上界，且是凸函数，形象地称 $err_{S V M}$ 为 hinge error measure ；
另外再考虑 Logistic Regression 的错误评估 $err_{SCE} (s, y) = lo g_{2} (1 + e^{- ys})$ ，它也是 $err_{0/1}$ 的上界，绘图得：
上图告诉我们，在 $ys$ 的定义域中，SVM 和 Logistic Regression 两种模型的错误评估有如下关系：
因此不妨视 $SVM \approx L2-regularized logistic regression$ ；

再一次综合回顾 PLA、soft-margin SVM、regularized logistic regression 三种模型：

PLA 的错误评估函数是特定的，其优势是在线性可分数据集上高效，但败也萧何，若是数据集不是线性可分，就要使用 pocket 策略改进；
soft-margin SVM 的错误评估函数是 QP 问题，其优势是可以轻松地找到最优解，并且有丰富的理论保障，但是它在 $ys$ 非常小（预测错误得离谱）时，仅仅是 $err_{0/1}$ 的宽松上界；
regularized LogReg 的错误评估函数在求最小值时，使用的是随机梯度下降或梯度下降法，不过优势劣势与 soft-margin SVM 几乎完全相同；

练习：何时 SVM 和 PLA 的错误评估结果相同？

SVM for Soft Binary Classification

讨论完 SVM 在二元分类中的错误评估，我们自然就要运用它实现二元分类，并且前文提到 soft-margin SVM 与 regularized logistic regression 非常类似，因此我们是否可以运用这一点实现二元分类呢？

直觉地想法是，要么运用 SVM 得到 $(b, w_{S V M})$ 参数，直接代入 logistic regression 中作为判断结果；要么将 SVM 运行得到的 $(b, w_{S V M})$ 作为 $w_{0}$ ，然后从此开始运行 logistic regression 算法；
不过这两种直觉的想法都只利用了 SVM 或 logistic regression 的一方的特点，若要综合利用，还要再次考量。

若要综合 SVM 和 logistic regression 两种模型的特点，我们应当如下设置最佳估计：

g (x) = θ (A \cdot (w_{S V M}^{T} Φ (x) + b_{S V M}) + B)

此处核心是 SVM 风格的参数， $w_{S V M}$ 和 $b_{S V M}$ ；然后通过 logistic regression 风格的参数 $A$ 进行放缩和参数 $B$ 进行偏移后，得到最大的可能、作为最后的得分：

通常 SVM 运算得出的 $w_{S V M}$ 比较好时， $A > 0$ ，
而 $b_{S V M}$ 比较好时， $B \approx 0$ ；

如此，得到的 LogReg Problem 为：

A, B min \frac{1}{N} n = 1 \sum N lo g 1 + exp - y_{n} (A \cdot (Φ_{S V M} (x_{n}) w_{S V M}^{T} Φ (x) + b_{S V M}) + B)

这种结合式的模型实际上就是在经过 SVM 转化的数据集上进行 LogReg 。

这个模型最初由 Platt 提出：

练习：理解组合式模型

Kernel Logistic Regression

Kernel Function 的本质是向量之内积，因此权重向量与特征向量的内积可以写成如下形式：

w_{*}^{T} z = n = 1 \sum N β_{n} z_{n}^{T} z = n = 1 \sum N β_{n} K (x_{n}, x)

这里意味着能够求得最佳权重向量 $w_{*}$ 的条件就是——权重向量是样本特征向量的线性组合。如 SVM、PLA、LogReg 三种模型：

那么何时存在 $z_{n}$ 表达能够表达最佳权重向量 $w_{*}$ 的条件？实际上，对任何形如：

w min \frac{λ}{N} w^{T} w + \frac{1}{N} n = 1 \sum N err (y_{n}, w^{T} z_{n})

的 L2 正则化的线性模型，都有最佳权重向量 $w_{*}$ 是所有样本的特征向量的线性组合： $w_{*} = n = 1 \sum N β_{n} z_{n}$ ，这个定理称为 Representer Theorem 。要证明它也比较直观：

将最佳权重向量 $w_{*}$ 分解为两个向量之和——一个是由样本集中向量可以线性表示出来的向量 $w_{∣∣}$ ，即有 $w_{∣∣} \in span (z_{n})$ ；另一个是垂直于样本 $z_{n}$ 可以展开的空间的向量 $w_{⊥}$ ，即有 $w_{⊥} ⊥ span (z_{n})$ ；
因此如果最终最佳权重向量 $w_{*}$ 可以由样本集中线性表示，那就意味着 $w_{⊥} = 0$ ；
但如果真的存在 $w_{⊥} \neq = 0$ ，那么考虑错误评估 $err (y_{n}, w_{*}^{T} z_{n}) = err (y_{n}, (w_{∣∣} + w_{⊥})^{T} z_{n})$ ，由于 $w_{⊥}$ 是垂直的，因此其内积必然为 0 ，这个等式成立，然而 $w_{*}$ 的长度与 $w_{∣∣}$ 却并不相同： $w_{*}^{T} w_{*} = w_{∣∣}^{T} w_{∣∣} + 2 w_{∣∣}^{T} w_{⊥} + w_{⊥}^{T} w_{⊥} > w_{∣∣}^{T} w_{∣∣}$ ，这说明存在另一个线性组合 $w_{∣∣}$ 比最优权重向量 $w_{*}$ 还要更优，这便发生了矛盾。

综上，我们可以得知，任意 L2 正则化的线性模型都是可以运用 kernel trick 的（ML 中称为可以被 kernelized）。

span(vector)的含义是什么？

在线性代数中，“span(z)” 表示由向量 z 的所有线性组合组成的集合。具体来说，如果有一个向量 z，那么 span(z) 包含所有可以通过对 z 进行线性组合（使用标量乘法和向量加法）而得到的向量。这意味着 span(z) 包含所有形如 c * z 的向量，其中 c 是任意标量。

换句话说，span(z) 是 z 所在的向量空间，它是由 z 张成的子空间。这个子空间包含所有可以通过在 z 上乘以不同的标量来得到的向量，形成一个由 z 所生成的线性子空间。

在几何上，span(z) 表示 z 所在的向量空间中的所有可能方向。如果 z 是一个二维向量，那么 span(z) 将是平面上通过原点的所有可能向量的集合。如果 z 是三维向量，那么 span(z) 将是通过原点的整个三维空间的所有可能向量的集合。

因此，转而求解 L2 正则化的 LogReg 问题：

w min \frac{λ}{N} w^{T} w + \frac{1}{N} n = 1 \sum N lo g (1 + e^{- y_{n} w^{T} z_{n}})

我们必然会得到由样本集线性组合而成的最优权重向量 $w_{*}$ ，故而运用 kernel function 代替其中的向量内积，我们可以求解最优的参数 $β$ ：

β min \frac{λ}{N} n = 1 \sum N m = 1 \sum N β_{n} β_{m} K (x_{n}, x_{m}) + \frac{1}{N} n = 1 \sum N lo g 1 + e^{- y_{n} m = 1 \sum N β_{m} K (x_{m}, x_{n})}

这是一个无限制的最优化问题，求解方法就是梯度下降或随机梯度下降，这个模型称为 kernel logistic regression —— 即，在 L2 正则化 LogReg 问题中使用 kernel 技巧的 representer 定理。

更进一步地深挖 KLR 模型：

其中 $m = 1 \sum N β_{m} K (x_{m}, x_{n})$ 的含义是：变量 $β$ 和转换后数据样本 $(K (x_{1}, x_{n}), K (x_{2}, x_{n}), ..., K (x_{N}, x_{n}),)$ 的内积；
$n = 1 \sum N m = 1 \sum N β_{n} β_{m} K (x_{n}, x_{m})$ 的含义是一个特殊的正则化器 $β^{T} K β$ ；
KLR 可以看作是运用 kernel function 在样本转换和 kernel 正则化的线性模型，也可以看作是 kernel 转换和 L2 正则化的线性模型
另外要注意，与 SVM 中系数 $α_{n}$ 可以为 0 不同，KLR 中系数 $β_{n}$ 通常不为 0 ；

🌰Senjl's Digital Garden🐉

Recent writing

Welcome to Senj's Digital Garden

2-批处理操作系统

3-多道程序与分时多任务

探索

50-Kernel-Logistic-Regression