03 2020 档案
Spark Graphx完成图挖掘
摘要:Spark中完成图挖掘经常以GraphX作为工具,我们以金融领域中常见的集团派系图谱为例子,学习Spark完成图挖掘工作。 为了更直接表达,我们可以先看一张自己造的派系图谱。 转化成输入数据之后为: 实际控制关系为: {"_from": 3,"_to": 1,"src_name": "尹明善","d 阅读全文
posted @ 2020-03-10 22:18 知己一生 阅读(530) 评论(0) 推荐(0)
Spark完成wordCount
摘要:Spark官方自带了WordCount的样例,我们也可以自己实现,加深对Spark的理解。 import org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]): Unit 阅读全文
posted @ 2020-03-08 13:08 知己一生 阅读(298) 评论(0) 推荐(0)
Spark介绍
摘要:通常当我们计算的数据超过了单机维度,比如我们的PC内存共8G,而需要计算的数据为100G,这时候我们通常选择大数据集群进行计算。 Spark是大数据处理的计算引擎。,这是它的发展是为了解决替代Hadoop的MapReduce计算引擎。 Hadoop的架构如下,核心包括两点:Hdfs和MapReduc 阅读全文
posted @ 2020-03-01 14:51 知己一生 阅读(257) 评论(0) 推荐(0)