03 2020 档案
摘要:什么是再平衡 所谓的再平衡,指的是在kafka consumer所订阅的topic发生变化时发生的一种分区重分配机制。一般有三种情况会触发再平衡: consumer group中的新增或删除某个consumer,导致其所消费的分区需要分配到组内其他的consumer上; consumer订阅的top
阅读全文
摘要:需求:对数据进行分类问题的处理 开发步骤: 1 准备SparkSession的环境 2 准备大数据的数据 3 读取数据并进行解析 4 数据的基本信息的查看 5 特征工程 6 准备算法 7 模型训练 8 模型预测 9 模型校验 10 模型保存 11 新数据预测 代码模板:
阅读全文
摘要:决策树的概念 决策树是一个类似于流程图的树结构:其中,每个内部结点表示一个特征或属性,而每个树叶结点代表一个分类。树的最顶层是根结点。使用决策树分类时就是将实例分配到叶节点的类中。该叶节点所属的类就是该节点的分类。(通过下图理解) 构建决策树三要素 特征选择 基于规则的选择 信息熵 一条信息的信
阅读全文
摘要:卡方验证(ChiSqSelector): 卡方检验 假设检验 首先假设特征和标签列是相关的,如果计算出来的结果差距很大,拒绝原假设,说明特征和标签列是独立的,这列特征不去选择。 变量进行 独立性检验 , 如果独立性高,那么表示两者没太大关系,特征可以舍弃 ; 如果独立性小,两者相关性高,则说 明该特
阅读全文