2.7 Structured Regression Models

$RSS(f)=\sum_i^N \left(y_i-f(x_i)\right)^2$

  • 当数据量足够大时,数据存在相同$x_i$,不同$y_{il},l=1\cdots t$
    则得到的f即为条件均值$E(y|X=x)$的无偏估计

  • 任意的一个$\hat{f}$都可以是一个特定的解,所以有无限多个解
    其中会有有些解在训练集上表现不错,而在测试集上表现不好

为了得到可行的解,需要加上一些限制

  • 对函数f的限制,比如linear regression限制函数为线性的;KNN限制为在某邻居区域内,函数为常数

  • 对邻居区域的限制,KNN限制为k个邻居所在的区域;linear regression则没有做限制

  • 邻居区域越大,所加的限制就越强,解对于限制就越敏感
    比如没有对领居区域进行限制,此时用不同函数拟合差别很大
    而当邻居区域小时,用常数表示或用线性函数拟合,差别并不大

  • 不同邻居区域不同函数的解决方法,受维度诅咒,比如KNN

posted @ 2015-08-12 13:38  porco  阅读(308)  评论(0编辑  收藏  举报