机器学习之场景解析

一、数据探查

1、数据量大小,足够的数据对学习效果有直接影响;

2、数据缺失或乱码,缺失和乱码影响数据质量,这种情况多的话需要进行数据清洗;

3、字段类型,不同算法对数据类型要求不一致,必要时需要进行转换;

4、是否含有目标队列,决定采用监督或无监督算法,若无目标队列可以考虑用ETL(抽取(extract)、交互转换(transform)、加载(load))操作生成。

 

二、场景抽象

机器学习主要包括如下几个场景:

1、二分类,比如商品推荐;

2、多分类,如疾病预测;

3、聚类,比如人群划分;

4、回归,股票预测;

 

三、算法选择

1、确定算法范围,通过数据类型,是否有目标队列,业务适合分类算法、聚类算法还是回归算法等判断来缩小算法范围;

2、多算法尝试,尽可能尝试多算法组合,选择最优的算法;

3、多视角分析,考虑算法的运算量,鲁棒性,资源消耗等。

posted @ 2018-12-07 10:13  Small_office  阅读(454)  评论(0)    收藏  举报