知己一生 - 博客园

2020年3月10日

摘要： Spark中完成图挖掘经常以GraphX作为工具，我们以金融领域中常见的集团派系图谱为例子，学习Spark完成图挖掘工作。为了更直接表达，我们可以先看一张自己造的派系图谱。转化成输入数据之后为：实际控制关系为： {"_from": 3,"_to": 1,"src_name": "尹明善","d 阅读全文

posted @ 2020-03-10 22:18 知己一生阅读(489) 评论(0) 推荐(0) 编辑

2020年3月8日

Spark完成wordCount

摘要： Spark官方自带了WordCount的样例，我们也可以自己实现，加深对Spark的理解。 import org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]): Unit 阅读全文

posted @ 2020-03-08 13:08 知己一生阅读(288) 评论(0) 推荐(0) 编辑

2020年3月1日

Spark介绍

摘要：通常当我们计算的数据超过了单机维度，比如我们的PC内存共8G,而需要计算的数据为100G，这时候我们通常选择大数据集群进行计算。 Spark是大数据处理的计算引擎。,这是它的发展是为了解决替代Hadoop的MapReduce计算引擎。 Hadoop的架构如下，核心包括两点：Hdfs和MapReduc 阅读全文

posted @ 2020-03-01 14:51 知己一生阅读(227) 评论(0) 推荐(0) 编辑

2018年8月22日

分库分表介绍

摘要：一、背景读写分离是为了扩展数据库的读能力，分库分表则是为了扩展数据库的写能力。一旦业务表中数据太大（对于mysql,单表数据一般不超过3000w,单库不超过300G），无论是任何CRUD操作，所耗费资源和性能都极大。这个时候一般就需要分库分表，将海量数据分配给N个子表维护。二、分库分表优点阅读全文

posted @ 2018-08-22 15:28 知己一生阅读(277) 评论(0) 推荐(0) 编辑

2018年6月6日

rpc学习

摘要：一、rpc定义： rpc(远程过程调用)，它是一种通过网络从远程计算机获取服务，就像本地调用服务，不需要程序员了解底层的网络技术协议。比如两台服务器A和B,A需要调用B的服务，但是二者不在同一内存空间，所以无法直接调用。需要规范调用参数和数据。通过rpc框架，可以避免冗余的网络通信代码，就像调用阅读全文

posted @ 2018-06-06 13:16 知己一生阅读(135) 评论(0) 推荐(0) 编辑

2018年3月29日

xgboost应用

摘要：在业务中，我们经常需要对数据建模并预测。简单的情况下，我们采用 if else 判断（一棵树）即可。但如果预测结果与众多因素有关，而每一个特征的权重又不尽相同。所以我们如何把这些特征的权重合理的找出来,xgboost正是这样一种算法。 xgboost的原理大致是会构建多棵决策树，来提高预测率。原谅阅读全文

posted @ 2018-03-29 15:35 知己一生阅读(215) 评论(0) 推荐(0) 编辑

2017年10月12日

ElasticSearch 批量增加索引

摘要：服务端批量增加索引，版本是5.1.1 这样就会把索引写入。阅读全文

posted @ 2017-10-12 17:13 知己一生阅读(1120) 评论(0) 推荐(0) 编辑

2017年10月11日

乡愁

摘要：乡愁是什么，不同的人感受一定不同。细细想起，我应该是从高中开始，逐渐的有了这种感觉。初中毕业后，为了能够读一所升学率不错的同学，我离开了长大的小县城，到另一所县城Z去读书。寒来暑往，高中的生活是紧张充实的，大家为了大学梦，几乎都分秒必争。假期的日子极短，只有每个周末的下午才能休息半天。因为补课的阅读全文

posted @ 2017-10-11 11:27 知己一生阅读(114) 评论(0) 推荐(0) 编辑

2017年10月10日

java futureTask的使用

摘要： futureTask 它的意义在于去除主函数的等待时间，使得主函数在执行耗时操作时无需死等，只需要在未来task执行完毕，再获取结果。下面的 futureTask 的一个简单例子。阅读全文

posted @ 2017-10-10 16:02 知己一生阅读(661) 评论(1) 推荐(1) 编辑

2017年9月26日

ElasticSearch 例子

摘要： ElasticSearch是一个接近实时的搜索平台，它利用Lucese进行文档索引。本文会写个可以运行的简单例子，方便大家上手，日后深入了解。需要引入maven依赖然后是测试主程序不要忘了配置 log4j2.properties 以上就可以了。 tips: jdk8以下可能会遇到问题。阅读全文

posted @ 2017-09-26 18:00 知己一生阅读(792) 评论(0) 推荐(0) 编辑