摘要: PimaIndiansdiabetes.csv 数据集介绍、下载、实验。 1、首先要明确有多少特征,哪些是连续的,哪些是类别的。 2、检查有没有缺失值,对确实的特征选择恰当方式进行弥补,使数据完整。 3、对连续的数值型特征进行标准化,使得均值为0,方差为1。 4、对类别型的特征进行one-hot编码。 5、将需要转换成类别型数据的连续型数据进行二值化。 6、为防止过拟合或者其他原因,选择是否要将数据进行正则化。 7、在对数据进行初探之后发现效果不佳,可以尝试使用多项式方法,寻找非线性的关系。 8、根据实际问题分析是否需要对特征进行相应的函数转换。 阅读全文
posted @ 2019-05-13 22:41 小婷儿 阅读(11581) 评论(3) 推荐(3) 编辑
levels of contents