2.7 Structured Regression Models

$RSS(f)=\sum_i^N \left(y_i-f(x_i)\right)^2$

当数据量足够大时，数据存在相同$x_i$，不同$y_{il},l=1\cdots t$
则得到的f即为条件均值$E(y|X=x)$的无偏估计
任意的一个$\hat{f}$都可以是一个特定的解，所以有无限多个解
其中会有有些解在训练集上表现不错，而在测试集上表现不好

为了得到可行的解，需要加上一些限制

对函数f的限制，比如linear regression限制函数为线性的;KNN限制为在某邻居区域内，函数为常数
对邻居区域的限制，KNN限制为k个邻居所在的区域；linear regression则没有做限制

邻居区域越大，所加的限制就越强，解对于限制就越敏感
比如没有对领居区域进行限制，此时用不同函数拟合差别很大
而当邻居区域小时，用常数表示或用线性函数拟合，差别并不大
不同邻居区域不同函数的解决方法，受维度诅咒，比如KNN

posted @ 2015-08-12 13:38 porco 阅读(319) 评论(0) 收藏举报

刷新页面返回顶部