基于是否有标签,分为三类。
supervised learning.给一个数据,给一个标签
classification 所有标签是离散值。分类。人脸识别。分类问题。
and regression.所有标签是连续值。回归。年龄估计,预测股票。
两者没有明确界限。
unsupervised learning 只有数据没有标签
semi-supervised learning 给大量数据,一部分有标签,一部分无标签,这些数据统一起来学习到一个模型。比两种都好。
第四类,rainforcement learning。智能驾驶,下围棋,很多种策略,选出最优解。

机器学习提取特征,如血液分析红白细胞的面积和周长。
机器学习算法就是画线的标准,区分。
没有免费午餐定理。如果不对特征空间先验假设,所有算法平均表现是一样的。机器学习就是预测,没有最好的算法。
特征差距小的样本更有可能是同一类。

支持向量机SVM。vapnik
线性模型。线性可分训练样本集(性能指标最大的分割线,平行两侧移动直到接触向量的两线距离最大。也就是最大化margin。其中接触的向量是支持向量。)和非线性可分训练样本集。
(W,X)WtX+b=0 超平面。yi[WtXi+b]>=0.用a缩放(W,b),使支持向量X0满足|WtX0+b|=1,则支持向量与平面距离d=1/||W||
优化问题最小化||W||,最大化d,限制条件yi[WtXi+b]>=1
凸优化问题中二次规划问题:目标函数二次项,限制条件一次项。要么无解,要么唯一极值。

非线性模型,从低纬到高纬映射。用到正则项和松弛变量。x=[a,b],φ(x)=[a方,b方,a,b,ab]
纬度越高,被线性分割的概率越大。
核函数K(x1,x2)能写成两个φ内积形式充要条件:k(x1,x2)=k(x2,x1).任意ci,xi,有取和cicjk(xi,xj)>=0.交换性和半正定性。
G是原问题和对偶问题的间距。对于某些特定优化问题,可以证明G等于零。若f(w)为凸函数,且g(w),h(w)线性函数,则G=0
若f(w)=W转置X,则对W偏导=X。

兵王问题。uci,libsvm网站。训练和测试样本归一化,求每个维度的均值和方差。高斯核。
五则交叉验证:5000个样本平均分五组。用一组做测试,其余做训练,五次识别率进行平均。训练和样本不做测试,他做的测试不能判断好坏。