随笔分类 - 机器学习
摘要:需求:对数据进行分类问题的处理 开发步骤: 1 准备SparkSession的环境 2 准备大数据的数据 3 读取数据并进行解析 4 数据的基本信息的查看 5 特征工程 6 准备算法 7 模型训练 8 模型预测 9 模型校验 10 模型保存 11 新数据预测 代码模板:
阅读全文
摘要:决策树的概念 决策树是一个类似于流程图的树结构:其中,每个内部结点表示一个特征或属性,而每个树叶结点代表一个分类。树的最顶层是根结点。使用决策树分类时就是将实例分配到叶节点的类中。该叶节点所属的类就是该节点的分类。(通过下图理解) 构建决策树三要素 特征选择 基于规则的选择 信息熵 一条信息的信
阅读全文
摘要:卡方验证(ChiSqSelector): 卡方检验 假设检验 首先假设特征和标签列是相关的,如果计算出来的结果差距很大,拒绝原假设,说明特征和标签列是独立的,这列特征不去选择。 变量进行 独立性检验 , 如果独立性高,那么表示两者没太大关系,特征可以舍弃 ; 如果独立性小,两者相关性高,则说 明该特
阅读全文
摘要:1、类别值属性的数值化 1.1 StringIndexer StringIndexer将标签的字符串列编码为标签索引列。索引[0, numLabels)按 标签频率 排序,因此最常用的标签获得索引0。如果输入列是数字,我们将其转换为字符串并索引字符串值。 1.2 IndexToString 对称的S
阅读全文
摘要:在Apriori算法原理总结中,我们对Apriori算法的原理做了总结。作为一个挖掘频繁项集的算法,Apriori算法需要多次扫描数据,I/O是很大的瓶颈。为了解决这个问题,FP Tree算法(也称FP Growth算法)采用了一些技巧,无论多少数据,只需要扫描两次数据集,因此提高了算法运行的效率。
阅读全文