李宏毅机器学习(二) regression

问题的导入:预测宝可梦的CP值

确定Senario、Task和Model
使用的Senario是Supervised Learning
使用的Task是Regression
关于Model,选择很多,这里采用的是Non-linear Model

machine Learning的三个步骤:
定义一个model即function set
定义一个goodness of function损失函数去评估该function的好坏

找一个最好的function

\[L(f)=L(w,b)=\sum_{n=1}^{10}(\widehat{y}^n-(b+w \cdot {x}^n_{cp}))^2 \]

Pick the Best Function

\[w^,b^={arg}\ \underset{w,b}{min} L(w,b)={arg}\ \underset{w,b}{min} \sum\limits^{10}{n=1}(\widehat{y}^n-(b+w \cdot x^n{cp}))^2 \]

Gradient Descent 梯度下降

Gradient Descent的缺点
gradient descent有一个令人担心的地方,它每次迭代完毕,寻找到的梯度为0的点必然是极小值点,local minima;却不一定是最小值点,global minima

我们关心的不是model在training data上的error表现,而是model在testing data上的error表现
在training data上,model越复杂,error就会越低;但是在testing data上,model复杂到一定程度之后,error非但不会减小,反而会暴增,通常被称为overfitting过拟合

原来的loss function只考虑了prediction的error,即\(\sum\limits_i^n(\widehat{y}^i-(b+\sum\limits_{j}w_jx_j))^2\);而regularization则是在原来的loss function的基础上加上了一项\(\lambda\sum(w_i)^2\)
我们期待参数\(w_i\)越小甚至接近于0的function,为什么呢?因为参数值接近0的function,是比较平滑的;所谓的平滑的意思是,当今天的输入有变化的时候,output对输入的变化是比较不敏感的

posted @ 2021-02-08 21:19  isshpan  阅读(38)  评论(0)    收藏  举报