01 2016 档案

摘要:Spark是一个通用且高速的大数据处理引擎,它采用了内存计算技术和DAG执行技术,大大提高了大数据处理速度,其效率在某些情况下是hadoop mapreduce引擎的10倍到100倍。此外,Spark还内建了例如MLlib,Spark SQL, Spark Streaming,GraphX等工具,为... 阅读全文
posted @ 2016-01-23 14:32 codingcat 阅读(283) 评论(0) 推荐(0)
摘要:目前Apache Spark支持三种分布式部署方式,分别是standalone、spark onmesos和 spark onYARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让S... 阅读全文
posted @ 2016-01-22 21:52 codingcat 阅读(684) 评论(0) 推荐(0)
摘要:1.二分法2.Newton迭代法public int sqrt(int x) {//newton int i = 1; while(Math.abs(i*i-x) > 1)//精度控制 { i = (i+x/i)/2; } return i; }通过控制精度得到对... 阅读全文
posted @ 2016-01-19 21:37 codingcat 阅读(385) 评论(0) 推荐(0)
摘要:接触spark有快一年了,对于scala语言的态度一直看不懂才查API、看资料。最近有比赛要用,所以开始认真学习scala。看的是《快学scala》这本书,记下自认为有用的语言特性及代码。package examplesobject Example1 { def main(args: Array[... 阅读全文
posted @ 2016-01-19 21:35 codingcat 阅读(155) 评论(0) 推荐(0)
摘要:1.含有“is”的行数val lines = sc.textFile("file:///usr/spark/spark-1.0.0-bin-hadoop2/README.md")lines.countval isrdd = lines.filter(line => line.contains("is... 阅读全文
posted @ 2016-01-19 21:29 codingcat 阅读(258) 评论(0) 推荐(0)