随笔分类 -  Spark

摘要:摘要:PayPal高级工程总监Anil Madan写了篇大数据的文章,一共有100篇大数据的论文,涵盖大数据技术栈,全部读懂你将会是大数据的顶级高手。 开源(Open Source)用之于大数据技术,其作用有二:一方面,在大数据技术变革之路上,开源在众人之力和众人之智推动下,摧枯拉朽,吐故纳新,扮演 阅读全文
posted @ 2016-11-25 23:56 子健儿 阅读(2969) 评论(0) 推荐(0)
摘要:原文地址:https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice4/ 引言 提起机器学习 (Machine Learning),相信很多计算机从业者都会对这个技术方向感到兴奋。然而学习并使用机器学习算法来处理数据却是 阅读全文
posted @ 2016-05-18 22:02 子健儿 阅读(2456) 评论(0) 推荐(0)
摘要:原文链接http://www.sxt.cn/info-2730-u-756.html 目录 Spark开发指南 简介 接入Spark Java 初始化Spark Java 弹性分布式数据集 并行集合 外部数据集 RDD操作 基本操作 传递Functions到Spark Wroking with Ke 阅读全文
posted @ 2016-05-10 10:19 子健儿 阅读(259) 评论(0) 推荐(0)
摘要:共享变量通常情况下,当向Spark操作(如map,reduce)传递一个函数时,它会在一个远程集群节点上执行,它会使用函数中所有变量的副本。这些变量被复制到所有的机器上,远程机器上并没有被更新的变量会向驱动程序回传。在任务之间使用通用的,支持读写的共享变量是低效的。尽管如此,Spark提供了两种有限... 阅读全文
posted @ 2015-12-03 13:05 子健儿 阅读(2414) 评论(0) 推荐(1)
摘要:1. 主要参考资料http://spark.incubator.apache.org/docs/latest/scala-programming-guide.htmlhttp://www.eecs.berkeley.edu/Pubs/TechRpts/2011/EECS-2011-82.pdf2. ... 阅读全文
posted @ 2015-11-14 11:42 子健儿 阅读(417) 评论(0) 推荐(0)
摘要:什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存... 阅读全文
posted @ 2015-11-14 10:39 子健儿 阅读(273) 评论(0) 推荐(0)