1特征归一化

线性函数归一化:映射到(0,1)

零均值归一化:均值为0,标准差为1

优点:训练数据归一化后,容易更快地通过梯度下降找 到最优解。

当然,数据归一化并不是万能的。在实际应用中,通过梯度下降法求解的模 型通常是需要归一化的,包括线性回归、逻辑回归、支持向量机、神经网络等模 型。但对于决策树模型则并不适用。

2类别型特征

序号编码或者one-hot

3高维组合特征

把一阶离散特征两两组合,构成高阶组合特征

4文本表示类型

词袋和N-gram

word2vec

5其他

a如果某个特征当中有缺失值,缺失比较少的话,可以使用该特征的平均值或者其它比较靠谱的数据进行填充;缺失比较多的话可以考虑删除该特征。

b可以分析特征与结果的相关性,把相关性小的特征去掉。

posted on 2020-07-11 14:54  知否知否,  阅读(102)  评论(0编辑  收藏  举报