boiledwater - 博客园

2015年8月11日

摘要：研究spark的目的之一就是要取代MR，目前我司MR的一个典型应用场景即为生成Avro文件，然后加载到HIVE表里，所以如何在Spark中生成Avro文件，就是必然之路了。我本人由于对java不熟，对hadoop的各个框架也知之寥寥，所以耗费了五六天的时间才搞明白怎么在spark中生成avro文件阅读全文

posted @ 2015-08-11 15:13 boiledwater 阅读(2266) 评论(0) 推荐(0) 编辑

2015年7月29日

spark中saveAsTextFile如何最终生成一个文件

摘要：一般而言，saveAsTextFile会按照执行task的多少生成多少个文件，比如part-00000一直到part-0000n，n自然就是task的个数，亦即是最后的stage的分区数。那么有没有办法最后只生成一个文件，而不是成百上千个文件了？答案自然是有办法。在RDD上调用coalesce(1 阅读全文

posted @ 2015-07-29 10:12 boiledwater 阅读(7011) 评论(0) 推荐(0) 编辑

Spark编程指南

摘要： Spark编程指南 (写在前面，本文是翻译自2015年7月29日的http://spark.apache.org/docs/latest/programming-guide.html，由于水平所限，肯定存在很多翻译不到位地方。本文的翻译是为了加深自己作为初学者对Spark的理解，欢迎大家指出各种理解阅读全文

posted @ 2015-07-29 09:47 boiledwater 阅读(833) 评论(0) 推荐(0) 编辑

2015年7月27日

spark中saveAsTextFile的错误

摘要：写了很简单的一段spark代码，将结果保存为windows本地文件，执行之后总是报错NullPointerException 查询之后发现是本地缺少hadoop需要的一个文件所致如果本地已经安装了hadoop 一般不会有此问题如果不愿安装可按照下述方法解决 1）下载需要的文件 winutil 阅读全文

posted @ 2015-07-27 16:03 boiledwater 阅读(1692) 评论(0) 推荐(0) 编辑

2015年7月7日

spark的环境安装

摘要： 1.安装sbt 正常安装流程。在cmd里运行的时候，要提前设置代理（如果上网有代理），set JAVA_OPTS=-Dhttp.proxySet=true -Dhttp.proxyHost=172.17.18.84 -Dhttp.proxyPort=8080。这样sbt就可以联网下载了，否则后续的阅读全文

posted @ 2015-07-07 16:36 boiledwater 阅读(208) 评论(0) 推荐(0) 编辑

2015年5月15日

HBase高性能复杂条件查询引擎---二级多列索引

摘要： http://www.infoq.com/cn/articles/hbase-second-index-engine 原理 “二级多列索引”是针对目标记录的某个或某些列建立的“键-值”数据，以列的值为键，以记录的RowKey为值，当以这些列为条件进行查询时，引擎可以通过检索相应的“键-值”数据快速找阅读全文

posted @ 2015-05-15 16:45 boiledwater 阅读(552) 评论(0) 推荐(0) 编辑

公告