摘要: 在分类问题中,有存在正反例数目差异较大的情况,这种情况叫做类别不平衡。 针对这种问题,解决方式主要有3种:假设正例数量大,反例数目极小。 1、减少正例的数量,使得数据平衡,再进一步分类,这种情况属于“欠采样”; 2、增加反例的数目平衡数据,再分类,这种称为“过采样”; 3、阈值移动:直接使用原始数据 阅读全文
posted @ 2018-08-03 15:38 我不是小鲁班 阅读(6891) 评论(0) 推荐(0)
摘要: 1、下载 下载地址:http://spark.apache.org/downloads.html。 选择下面版本下载。 2、操作流程:https://blog.csdn.net/nxw_tsp/article/details/78281533 阅读全文
posted @ 2018-08-03 12:21 我不是小鲁班 阅读(248) 评论(0) 推荐(0)
摘要: 详细过程: 1、VMware安装; 2、centos 6 安装 3、jdk下载安装配置 4、Hadoop 安装配置 1、VMware Workstation 安装: https://www.vmware.com/cn/products/workstation-pro.html 下载安装,很简单 阅读全文
posted @ 2018-08-03 10:45 我不是小鲁班 阅读(422) 评论(0) 推荐(0)
摘要: 决策树可以分成ID3、C4.5和CART。 CART与ID3和C4.5相同都由特征选择,树的生成,剪枝组成。但ID3和C4.5用于分类,CART可用于分类与回归。 ID3和C4.5生成的决策树可以是多叉的,每个节点下的叉树由该节点特征的取值种类而定,比如特征年龄分为(青年,中年,老年),那么改节点下 阅读全文
posted @ 2018-08-03 10:16 我不是小鲁班 阅读(17521) 评论(0) 推荐(0)