特征工程:

一、分类特征:用分类特征映射关系编码成整数

  独热编码和稀疏矩阵

二、文本特征:将文本转换成一组数值

  单词统计、TF-IDF词频逆文档频率

三、图像特征:用像素表示图像

四、衍生特征:基函数回归(多项式特征)

五、缺失值填充

  均值、中位数、众数、矩阵填充

六、特征管道

  from sklearn.pipeline import make_pipeline