01 2017 档案

摘要:直接上代码: 其中sortResult方法里对Traversable[(K,V)]类型的集合使用了reduceByKey方法,这个方法是自行封装的,使用时需要导入,代码如下: 阅读全文
posted @ 2017-01-20 18:00 一人浅醉- 阅读(2692) 评论(0) 推荐(0)
摘要:Pregel是个强大的基于图的迭代算法,也是Spark中的一个迭代应用aggregateMessage的典型案例,用它可以在图中方便的迭代计算,如最短路径、关键路径、n度关系等。然而对于之前对图计算接触不多的童鞋来说,这个api还算是一个比较重量组的接口,不太容易理解。 Spark中的Pregel定义如下: def pregel[A: ClassTag]( initialMsg: A,... 阅读全文
posted @ 2017-01-19 17:36 一人浅醉- 阅读(3363) 评论(0) 推荐(0)
摘要:为什么之前的MapReduce系统比较慢 常理上有几个理由使得MapReduce框架慢于MPP数据库: 容错所引入的昂贵数据实体化(data materialization)开销。 孱弱的数据布局(data layout),比如缺少索引。 执行策略的开销[1 2]。 而我们对于Hive的实验也进一步证明了上述的理由,但是通过对Hive“工程上”的改进,如改变存储引擎(内存存储引擎)、改善执行... 阅读全文
posted @ 2017-01-17 11:48 一人浅醉- 阅读(3124) 评论(0) 推荐(0)
摘要:关系计算问题描述 二度关系是指用户与用户通过关注者为桥梁发现到的关注者之间的关系。目前微博通过二度关系实现了潜在用户的推荐。用户的一度关系包含了关注、好友两种类型,二度关系则得到关注的关注、关注的好友、好友的关注、好友的好友四种类型。 如果要为全站亿级用户根据二度关系和四种桥梁类型推荐桥梁权重最高 TopN 个用户,大致估算了下总关系量在千亿级别,按照原有的 Mapreduce 模式计算整个二度关... 阅读全文
posted @ 2017-01-17 11:38 一人浅醉- 阅读(3958) 评论(1) 推荐(0)
摘要:参考: https://github.com/JerryLead/SparkInternals/blob/master/markdown/english/5-Architecture.md?winzoom=1 相关文献: 《Spark源码分析之Storage模块》 《详细探究Spark的shuffl 阅读全文
posted @ 2017-01-17 11:37 一人浅醉- 阅读(300) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2017-01-15 18:57 一人浅醉-
摘要:一、快速打开Action: Ctrl+Shift+A 列表中会列出所有的action,对应于idea的各种操作,例如: 输入backgroud,可以为编辑器设置背景 输入restclient,可以打开restclient替代postman执行http请求操作 输入ssh,可以打开一个ssh会话 action中的东西很多,可以慢慢发掘… 二、配置项目管理服务器 如添加JIRA服务器: Ctrl+... 阅读全文
posted @ 2017-01-04 12:02 一人浅醉- 阅读(7080) 评论(0) 推荐(0)