Spark Graphx完成图挖掘
摘要:Spark中完成图挖掘经常以GraphX作为工具,我们以金融领域中常见的集团派系图谱为例子,学习Spark完成图挖掘工作。 为了更直接表达,我们可以先看一张自己造的派系图谱。 转化成输入数据之后为: 实际控制关系为: {"_from": 3,"_to": 1,"src_name": "尹明善","d
阅读全文
posted @
2020-03-10 22:18
知己一生
阅读(524)
推荐(0)
Spark完成wordCount
摘要:Spark官方自带了WordCount的样例,我们也可以自己实现,加深对Spark的理解。 import org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]): Unit
阅读全文
posted @
2020-03-08 13:08
知己一生
阅读(296)
推荐(0)
Spark介绍
摘要:通常当我们计算的数据超过了单机维度,比如我们的PC内存共8G,而需要计算的数据为100G,这时候我们通常选择大数据集群进行计算。 Spark是大数据处理的计算引擎。,这是它的发展是为了解决替代Hadoop的MapReduce计算引擎。 Hadoop的架构如下,核心包括两点:Hdfs和MapReduc
阅读全文
posted @
2020-03-01 14:51
知己一生
阅读(244)
推荐(0)
xgboost应用
摘要:在业务中,我们经常需要对数据建模并预测。简单的情况下,我们采用 if else 判断(一棵树)即可。但如果预测结果与众多因素有关,而每一个特征的权重又不尽相同。 所以我们如何把这些特征的权重合理的找出来,xgboost正是这样一种算法。 xgboost的原理大致是会构建多棵决策树,来提高预测率。原谅
阅读全文
posted @
2018-03-29 15:35
知己一生
阅读(223)
推荐(0)