摘要:原文:https://zhuanlan.zhihu.com/p/26308272 插入一条信息:特征编码一定要考虑是否需要距离度量,编码方式对距离度量的适应:例如:我们用one-hot编码颜色,向量正交,各个颜色之间的距离等同,如果此处用序数编码显然不太合适,但是我们用one-hot编码星期几就不好
阅读全文
posted @ 2018-09-13 11:29
|
|
|
随笔分类 - 特征工程
机器学习的特征工程
摘要:原文:https://zhuanlan.zhihu.com/p/26308272 插入一条信息:特征编码一定要考虑是否需要距离度量,编码方式对距离度量的适应:例如:我们用one-hot编码颜色,向量正交,各个颜色之间的距离等同,如果此处用序数编码显然不太合适,但是我们用one-hot编码星期几就不好
阅读全文
posted @ 2018-09-13 11:29
摘要:混淆矩阵: 混淆矩阵的正例一般是我们需要关注的,常用1表示,反例是我们不关注的,常用0表示。例如:一个需要识别借贷需求的人的分类任务中,正例表示有借贷需求的人,反例表示没有借贷需求的人。下面定义一些基于混淆矩阵的度量分类任务的方法: 查准率(Precision): 基于这个借贷需求识别任务说明:所有
阅读全文
posted @ 2018-09-11 21:22
摘要:原文:https://zhuanlan.zhihu.com/p/25836678 1.voting 对于分类问题,采用多个基础模型,采用投票策略选择投票最多的为最终的分类。 2.averaging 对于回归问题,一方面采用简单平均法,另一方面采用加权平均法,加权平均法的思路:权值可以用排序的方法确定
阅读全文
posted @ 2018-09-06 09:51
摘要:原文:https://www.toutiao.com/i6591745523139478030/?group_id=6591745523139478030 1.数据探索 常用图表: 查看目标变量的分布。当分布不平衡时,根据评分标准和具体模型的使用不同,可能会严重影响性能。 对 Numerical V
阅读全文
posted @ 2018-09-05 16:00
摘要:原文:https://www.toutiao.com/i6597192035214557710/ 几种新的特征转换思维: 1.数据转换成图像 Kaggle上有一个微软恶意软件分类挑战,它的数据集包含一组已知的恶意软件文件,对于每个文件,原始数据包含文件二进制内容的十六进制表示。此前,参赛者在网上从没
阅读全文
posted @ 2018-09-05 11:22
|
|