第5章 挖掘建模
5.1 分类与预测
分类属于有监督学习
分类算法过程:
1 训练样本集建立模型
2 用测试集评估模型准确率,如果可以接受,再用该模型对未知标号的待测样本集进行预测
常用分类与预测算法
回归分析,决策树,人工神经网络,贝叶斯网络,支持向量机
回归分析:通过建立模型来研究变量之间相互关系的有效工具
常用回归模型
线性回归 非线性回归 Logistic回归 岭回归 主成分回归
Logistic回归:回归模型中的因变量只有1-0两种取值
特征筛选:F检验,递归特征消除,稳定性选择(随机逻辑回归,例P88 5-1_logistic_regression.py)(特征筛选这里的几个方法以后可以尝试)
决策树
决策树是一树状结构,它的每一个叶节点对应一个分类,非叶节点对应着在某个属性上的划分
决策树算法
ID3(例P94 5-2_decision_tree.py),C4.5算法,CART算法
人工神经网络
人工神经网络是模拟生物神经网络进行信息处理的一种数学模型
δ学习规则(误差校正学习算法)是使用最广泛的一种
BP神经网络(常用),LM神经网络等
例P99 5-3_neural_network.py
分类与预测算法评价
不能用训练集进行模型评价,需要与训练集无关的测试集
模型预测效果评价:相对/绝对误差,平均绝对误差,均方误差,均方根误差,Kappa统计,识别准确度,识别精确率,反馈率,ROC曲线,混淆矩阵
5.2 聚类分析
聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的方法,是非监督学习
常用聚类算法:K-Means(例P107 5-4_k_means.py)
posted on 2019-02-18 15:09 wangzhonghan 阅读(253) 评论(0) 收藏 举报
                    
                
                
            
        
浙公网安备 33010602011771号