第5章 挖掘建模

5.1 分类与预测

 

分类属于有监督学习

分类算法过程:

1 训练样本集建立模型

2 用测试集评估模型准确率,如果可以接受,再用该模型对未知标号的待测样本集进行预测

 

常用分类与预测算法

回归分析,决策树,人工神经网络,贝叶斯网络,支持向量机

回归分析:通过建立模型来研究变量之间相互关系的有效工具

 

常用回归模型

线性回归 非线性回归 Logistic回归 岭回归 主成分回归

Logistic回归:回归模型中的因变量只有1-0两种取值

特征筛选:F检验,递归特征消除,稳定性选择(随机逻辑回归,例P88 5-1_logistic_regression.py)(特征筛选这里的几个方法以后可以尝试)

 

决策树

决策树是一树状结构,它的每一个叶节点对应一个分类,非叶节点对应着在某个属性上的划分

 

决策树算法

ID3(例P94 5-2_decision_tree.py),C4.5算法,CART算法

 

人工神经网络

人工神经网络是模拟生物神经网络进行信息处理的一种数学模型

δ学习规则(误差校正学习算法)是使用最广泛的一种

BP神经网络(常用),LM神经网络等

例P99 5-3_neural_network.py

 

分类与预测算法评价

不能用训练集进行模型评价,需要与训练集无关的测试集

模型预测效果评价:相对/绝对误差,平均绝对误差,均方误差,均方根误差,Kappa统计,识别准确度,识别精确率,反馈率,ROC曲线,混淆矩阵

 

 5.2 聚类分析

聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的方法,是非监督学习

常用聚类算法:K-Means(例P107 5-4_k_means.py)

 

posted on 2019-02-18 15:09  wangzhonghan  阅读(253)  评论(0)    收藏  举报

导航