随笔档案「2016年1月」 - codingcat

rdd

摘要：Spark是一个通用且高速的大数据处理引擎，它采用了内存计算技术和DAG执行技术，大大提高了大数据处理速度，其效率在某些情况下是hadoop mapreduce引擎的10倍到100倍。此外，Spark还内建了例如MLlib，Spark SQL， Spark Streaming，GraphX等工具，为... 阅读全文

posted @ 2016-01-23 14:32 codingcat 阅读(285) 评论(0) 推荐(0)

Apache Spark探秘：三种分布式部署方式比较

摘要：目前Apache Spark支持三种分布式部署方式，分别是standalone、spark onmesos和 spark onYARN，其中，第一种类似于MapReduce 1.0所采用的模式，内部实现了容错性和资源管理，后两种则是未来发展的趋势，部分容错性和资源管理交由统一的资源管理系统完成：让S... 阅读全文

posted @ 2016-01-22 21:52 codingcat 阅读(689) 评论(0) 推荐(0)

Sqrt函数的实现方法

摘要：1.二分法2.Newton迭代法public int sqrt(int x) {//newton int i = 1; while(Math.abs(i*i-x) > 1)//精度控制 { i = (i+x/i)/2; } return i; }通过控制精度得到对... 阅读全文

posted @ 2016-01-19 21:37 codingcat 阅读(389) 评论(0) 推荐(0)

快学scala笔记（一）

摘要：接触spark有快一年了，对于scala语言的态度一直看不懂才查API、看资料。最近有比赛要用，所以开始认真学习scala。看的是《快学scala》这本书，记下自认为有用的语言特性及代码。package examplesobject Example1 { def main(args: Array[... 阅读全文

posted @ 2016-01-19 21:35 codingcat 阅读(155) 评论(0) 推荐(0)

spark pair RDD

摘要：1.含有“is”的行数val lines = sc.textFile("file:///usr/spark/spark-1.0.0-bin-hadoop2/README.md")lines.countval isrdd = lines.filter(line => line.contains("is... 阅读全文

posted @ 2016-01-19 21:29 codingcat 阅读(258) 评论(0) 推荐(0)

codingcat

01 2016 档案

公告