《python机器学习—预测分析核心算法》：理解数据

参见原书2.1-2.2节

新数据集就像一个包装好的礼物，它充满了承诺和希望！

但是直到你打开前，它都保持神秘！

一、基础问题的架构、术语，机器学习数据集的特性

通常，行代表实例，列代表属性特征

属性，实例中用于预测的数据
其他名称：预测因子特征独立变量输入

标签，需要预测的数据
其他名称：结果目标依赖变量响应

2.1.1属性和标签的不同类型决定模型的选择
数值变量类别变量/因素变量

惩罚回归算法只能处理数值变量：SVM 核方法 K最近邻
转换：类别变量->数值变量

当标签是数值的，就叫作回归问题
当标签是类别的，就叫作分类问题
转换：回归问题 170 210 分类问题 >200？

分类问题也可能比回归问题简单

2.1.2新数据集的注意事项
需要检查的事项：
行数、列数
类别变量的数目、类别的取值范围
缺失的值
属性和标签的统计特性

处理缺失值：
1.有大量数据，直接丢弃缺失值
2.数据比较昂贵，难以获得，填充缺失值
遗失值插补：最简单的方法，每行所有此项的平均值代替缺失值

2.2分类问题

实例：用声呐发现未爆炸的水雷

(1)确定数据集的规模

数据规模的影响：
1.可以大致判断训练所需的时间

惩罚线性回归集成方法
1000 * 1000 1min 几分钟
10000 * 10000 3-4 hour 12-24 hour

2.如果数据集的列数远远大于行数，那么采用惩罚线性回归的方法很可能获得最佳的预测

(2)确定每个属性的特征
哪些列是数值型，哪些列是类别型

(3)获得属性的统计信息
数值型描述性统计信息
类别型具体类别的数量分布

posted @ 2018-03-04 11:33 飞鸟先森阅读(2119) 评论(0) 收藏举报

刷新页面返回顶部

飞鸟先森