随笔分类 -  大数据

Spark Graphx完成图挖掘
摘要:Spark中完成图挖掘经常以GraphX作为工具,我们以金融领域中常见的集团派系图谱为例子,学习Spark完成图挖掘工作。 为了更直接表达,我们可以先看一张自己造的派系图谱。 转化成输入数据之后为: 实际控制关系为: {"_from": 3,"_to": 1,"src_name": "尹明善","d 阅读全文
posted @ 2020-03-10 22:18 知己一生 阅读(524) 评论(0) 推荐(0)
Spark完成wordCount
摘要:Spark官方自带了WordCount的样例,我们也可以自己实现,加深对Spark的理解。 import org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]): Unit 阅读全文
posted @ 2020-03-08 13:08 知己一生 阅读(296) 评论(0) 推荐(0)
Spark介绍
摘要:通常当我们计算的数据超过了单机维度,比如我们的PC内存共8G,而需要计算的数据为100G,这时候我们通常选择大数据集群进行计算。 Spark是大数据处理的计算引擎。,这是它的发展是为了解决替代Hadoop的MapReduce计算引擎。 Hadoop的架构如下,核心包括两点:Hdfs和MapReduc 阅读全文
posted @ 2020-03-01 14:51 知己一生 阅读(244) 评论(0) 推荐(0)
xgboost应用
摘要:在业务中,我们经常需要对数据建模并预测。简单的情况下,我们采用 if else 判断(一棵树)即可。但如果预测结果与众多因素有关,而每一个特征的权重又不尽相同。 所以我们如何把这些特征的权重合理的找出来,xgboost正是这样一种算法。 xgboost的原理大致是会构建多棵决策树,来提高预测率。原谅 阅读全文
posted @ 2018-03-29 15:35 知己一生 阅读(223) 评论(0) 推荐(0)