2019 年 3月 25 日随笔档案 - 大葱拌豆腐

2019年3月25日

摘要：转载自：https://blog.csdn.net/Android_xue/article/details/79780463 Spark两种共享变量：广播变量（broadcast variable）与累加器（accumulator）累加器用来对信息进行聚合，而广播变量用来高效分发较大的对象。共享阅读全文

posted @ 2019-03-25 20:40 大葱拌豆腐阅读(1370) 评论(0) 推荐(0)

Spark mllib多层分类感知器在情感分析中的实际应用

摘要： import org.apache.spark.ml.Pipelineimport org.apache.spark.ml.classification.MultilayerPerceptronClassifierimport org.apache.spark.ml.evaluation.Multi 阅读全文

posted @ 2019-03-25 17:19 大葱拌豆腐阅读(718) 评论(0) 推荐(0)

Spark Streaming之窗口函数和状态转换函数

摘要：流处理主要有3种应用场景：无状态操作、window操作、状态操作。 reduceByKeyAndWindow countByValueAndWindow countByValueAndWindow的源码如下所示： reduceByWindow reduceByWindow的源码如下所示： count 阅读全文

posted @ 2019-03-25 16:19 大葱拌豆腐阅读(2756) 评论(0) 推荐(0)

Spark MLlib之使用Breeze操作矩阵向量

摘要：在使用Breeze 库时，需要导入相关包： Breeze创建函数 Breeze元素访问 val a = new DenseVector[Int](Array(10 to 20: _*)) a: breeze.linalg.DenseVector[Int] = DenseVector(10, 11, 阅读全文

posted @ 2019-03-25 15:33 大葱拌豆腐阅读(1684) 评论(0) 推荐(0)

数据仓库--通用的数据仓库分层方法

摘要： 0x00 概述数据分层是数据仓库设计中十分重要的一个环节，优秀的分层设计能够让整个数据体系更易理解和使用。而目前网络中大部分可以被检索到相关文章只是简单地提及数据分层的设计，或缺少明确而详细的说明，或缺少可落地实施的方案，或缺少具体的示例说明。因此，本文将指出一种通用的数据仓库分层方法，具体包含如阅读全文

posted @ 2019-03-25 11:46 大葱拌豆腐阅读(58268) 评论(11) 推荐(28)

公告