primal = dual
min_w f(w,x) s.t. gi(w,x) <= 0
L(w,x,a) = f(w,x) + sum aigi(w,x)
primal: min_w max_a L 原始问题等价于优化问题 p*
dual: max_a min_w L ----- d*
max min <= min max 等号成立有条件 f,g convex ... TODO
即p* = d*,同时对应的最有参数w*满足KKT条件
梯度w = 0
aigi = 0 <--- 互补条件
gi <= 0 <--- 约束条件
ai >=0
=====================
带入SVM的优化目标即可,
软间隔附上1-ei, c*sum ei
=====================
Kernel K(x,z)
由于训练、预测可以用内积表示,假设x是d维
那么把x扩展到高维的线性无关数据可以丰富特征?
即用K(x,z)=phi(x) dot phi(z)
不一定要显式找到phi,例如K(x,z) = (xz)^2 ....
gaussian kernel / rbf 映射到无限维 => similarity
===================
ova/ ava/ weston
===================
hinge loss 合页损失 max(0, ---) 只有当输出大于一定值时损失才为0
优化函数可以写成hinge loss的形式+L2正则化项