Spark - 随笔分类 - 子健儿

100篇大数据文章[转]

摘要：摘要：PayPal高级工程总监Anil Madan写了篇大数据的文章，一共有100篇大数据的论文，涵盖大数据技术栈，全部读懂你将会是大数据的顶级高手。开源（Open Source）用之于大数据技术，其作用有二：一方面，在大数据技术变革之路上，开源在众人之力和众人之智推动下，摧枯拉朽，吐故纳新，扮演阅读全文

posted @ 2016-11-25 23:56 子健儿阅读(2974) 评论(0) 推荐(0)

使用 Spark MLlib 做 K-means 聚类分析[转]

摘要：原文地址：https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice4/ 引言提起机器学习 (Machine Learning)，相信很多计算机从业者都会对这个技术方向感到兴奋。然而学习并使用机器学习算法来处理数据却是阅读全文

posted @ 2016-05-18 22:02 子健儿阅读(2467) 评论(0) 推荐(0)

Spark开发指南

摘要：原文链接http://www.sxt.cn/info-2730-u-756.html 目录 Spark开发指南简介接入Spark Java 初始化Spark Java 弹性分布式数据集并行集合外部数据集 RDD操作基本操作传递Functions到Spark Wroking with Ke 阅读全文

posted @ 2016-05-10 10:19 子健儿阅读(273) 评论(0) 推荐(0)

Spark共享变量

摘要：共享变量通常情况下，当向Spark操作(如map,reduce)传递一个函数时，它会在一个远程集群节点上执行，它会使用函数中所有变量的副本。这些变量被复制到所有的机器上，远程机器上并没有被更新的变量会向驱动程序回传。在任务之间使用通用的，支持读写的共享变量是低效的。尽管如此，Spark提供了两种有限... 阅读全文

posted @ 2015-12-03 13:05 子健儿阅读(2427) 评论(0) 推荐(1)

spark开发

摘要：1. 主要参考资料http://spark.incubator.apache.org/docs/latest/scala-programming-guide.htmlhttp://www.eecs.berkeley.edu/Pubs/TechRpts/2011/EECS-2011-82.pdf2. ... 阅读全文

posted @ 2015-11-14 11:42 子健儿阅读(420) 评论(0) 推荐(0)

spark介绍

摘要：什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存... 阅读全文

posted @ 2015-11-14 10:39 子健儿阅读(283) 评论(0) 推荐(0)

子健儿

技术菜鸟成长中。。。

随笔分类 - Spark

公告