大数据 - 随笔分类 - 知己一生

Spark Graphx完成图挖掘

摘要：Spark中完成图挖掘经常以GraphX作为工具，我们以金融领域中常见的集团派系图谱为例子，学习Spark完成图挖掘工作。为了更直接表达，我们可以先看一张自己造的派系图谱。转化成输入数据之后为：实际控制关系为： {"_from": 3,"_to": 1,"src_name": "尹明善","d 阅读全文

posted @ 2020-03-10 22:18 知己一生阅读(532) 评论(0) 推荐(0)

Spark完成wordCount

摘要：Spark官方自带了WordCount的样例，我们也可以自己实现，加深对Spark的理解。 import org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]): Unit 阅读全文

posted @ 2020-03-08 13:08 知己一生阅读(298) 评论(0) 推荐(0)

Spark介绍

摘要：通常当我们计算的数据超过了单机维度，比如我们的PC内存共8G,而需要计算的数据为100G，这时候我们通常选择大数据集群进行计算。 Spark是大数据处理的计算引擎。,这是它的发展是为了解决替代Hadoop的MapReduce计算引擎。 Hadoop的架构如下，核心包括两点：Hdfs和MapReduc 阅读全文

posted @ 2020-03-01 14:51 知己一生阅读(258) 评论(0) 推荐(0)

xgboost应用

摘要：在业务中，我们经常需要对数据建模并预测。简单的情况下，我们采用 if else 判断（一棵树）即可。但如果预测结果与众多因素有关，而每一个特征的权重又不尽相同。所以我们如何把这些特征的权重合理的找出来,xgboost正是这样一种算法。 xgboost的原理大致是会构建多棵决策树，来提高预测率。原谅阅读全文

posted @ 2018-03-29 15:35 知己一生阅读(231) 评论(0) 推荐(0)

随笔分类 - 大数据