笔记01--《可解释的机器学习》
书籍来源:https://christophm.github.io/interpretable-ml-book/bike-data.html
P-37
线性回归的解释-4.1.5分类特征的编码
有多个类别的特征(天气:阴天、小雨、大雪…)要如何编码,不同的编码方式对应不同的权重解释。
假设有三种类别(A、B、C)的范畴特征,选六个实例,前两个是A类,中间两个B类,最后两个C类。
第一种:Treatment coding,这种编码方式下,每个类别的权重是对该类别与参考类别预测的差异(理解为一个普通的w,不用想太多)
每行表示一个实例,列表示特征,第一列表示截距β0,所以一直为1,第二列表示B类、第三列表示C类,B和C都为0就表示A类;如果单独增加A类的列话,线性方程就无法计算出权值唯一解。
第二种:Effect coding,这种编码方式下,每个类别的权重是该类别与总体平均值的y差(假设所有其他特征为0或为参考类)。
这里理解为,此时特征矩阵中0和1代表的已经不是类别,而是差值,差几个β0,差几个β1这样。
第三种:Dummy coding,忽略截距,每类的β代表该类计算出的y的平均值(假设所有其他特征为0或为参考类)
很好理解 ,是哪类就给哪类标1,忽略截距是为了让权重有解

浙公网安备 33010602011771号