2016年3月10日

摘要: 通过word count在spark-shell中执行的过程,我们想看看spark-shell做了什么?spark-shell中有以下一段脚本,见代码清单1-1。 代码清单1-1 spark-shell 1 2 3 4 5 6 7 8 9 10 11 function main() { if $cy 阅读全文
posted @ 2016-03-10 22:44 杜聪 阅读(222) 评论(0) 推荐(0)

2016年3月7日

摘要: [原创.版权:杜聪]转载请注明出处 今天,给学生讲java时,忽然讲到京东商品排序问题。即兴发挥,写了这段程序。基于topN算法。排出销量前5名的 手机型号。 原始数据: 手机型号 销量---------------------- 华为Mate 8 602 小米 3 202 vivo x6 502 阅读全文
posted @ 2016-03-07 21:45 杜聪 阅读(658) 评论(0) 推荐(0)

2016年3月6日

摘要: How could you select one of n objects at random, where you see the objects sequentially but you do not know the value of n beforehand? For concretenes 阅读全文
posted @ 2016-03-06 23:52 杜聪 阅读(394) 评论(0) 推荐(0)

2016年3月1日

摘要: 所谓闭包,实际上是一种特殊的函数,它在暗地里绑定了函数内部引用的所有变量。换句话说,这种函数(或方法)把它引用的所有东西都放在一个上下文里“包”起来了。 Groovy语言中闭包绑定的简单示例 class Employee{ def name,salary } def paidMore(amount) 阅读全文
posted @ 2016-03-01 22:15 杜聪 阅读(290) 评论(0) 推荐(0)

2016年2月28日

摘要: 算法的数学分析部分:可参考网络,或者Google PageRank 论文。此处不做讨论,或以后我彻底搞明白再论述。 代码实现: val sc = new SparkContext(...) val links = sc.parallelize(Array(('A',Array('D')),('B', 阅读全文
posted @ 2016-02-28 15:35 杜聪 阅读(1000) 评论(0) 推荐(0)

2016年2月27日

摘要: 这篇文章,很有必要看,写的不错。但是看过后,不要忘记查看Apache spark官方文档。因为这篇文章理解还是和源码、官方文档 不一致。有一点错误!【cnblogs的代码编辑器 不支持Scala,所以 语言的关键字 没有高亮显示】 在数据分析中,处理Key,Value的Pair数据是极为常见的场景, 阅读全文
posted @ 2016-02-27 20:46 杜聪 阅读(298) 评论(0) 推荐(0)

2016年2月26日

摘要: 对于SQL的Join,在学习起来可能是比较乱的。我们知道,SQL的Join语法有很多inner的,有outer的,有left的,有时候,对于Select出来的结果集是什么样子有点不是很清楚。Coding Horror上有一篇文章(实在不清楚为什么Coding Horror也被墙)通过 文氏图 Ven 阅读全文
posted @ 2016-02-26 19:35 杜聪 阅读(253) 评论(0) 推荐(0)

导航