上一页 1 ··· 6 7 8 9 10
摘要: 研究spark的目的之一就是要取代MR,目前我司MR的一个典型应用场景即为生成Avro文件,然后加载到HIVE表里,所以如何在Spark中生成Avro文件,就是必然之路了。 我本人由于对java不熟,对hadoop的各个框架也知之寥寥,所以耗费了五六天的时间才搞明白怎么在spark中生成avro文件 阅读全文
posted @ 2015-08-11 15:13 boiledwater 阅读(2266) 评论(0) 推荐(0) 编辑
摘要: 一般而言,saveAsTextFile会按照执行task的多少生成多少个文件,比如part-00000一直到part-0000n,n自然就是task的个数,亦即是最后的stage的分区数。那么有没有办法最后只生成一个文件,而不是成百上千个文件了?答案自然是有办法。 在RDD上调用coalesce(1 阅读全文
posted @ 2015-07-29 10:12 boiledwater 阅读(7011) 评论(0) 推荐(0) 编辑
摘要: Spark编程指南 (写在前面,本文是翻译自2015年7月29日的http://spark.apache.org/docs/latest/programming-guide.html,由于水平所限,肯定存在很多翻译不到位地方。本文的翻译是为了加深自己作为初学者对Spark的理解,欢迎大家指出各种理解 阅读全文
posted @ 2015-07-29 09:47 boiledwater 阅读(833) 评论(0) 推荐(0) 编辑
摘要: 写了很简单的一段spark代码,将结果保存为windows本地文件,执行之后总是报错NullPointerException 查询之后 发现是本地缺少hadoop需要的一个文件所致 如果本地已经安装了hadoop 一般不会有此问题 如果不愿安装 可按照下述方法解决 1)下载需要的文件 winutil 阅读全文
posted @ 2015-07-27 16:03 boiledwater 阅读(1692) 评论(0) 推荐(0) 编辑
摘要: 1.安装sbt 正常安装流程。 在cmd里运行的时候,要提前设置代理(如果上网有代理),set JAVA_OPTS=-Dhttp.proxySet=true -Dhttp.proxyHost=172.17.18.84 -Dhttp.proxyPort=8080。这样sbt就可以联网下载了,否则后续的 阅读全文
posted @ 2015-07-07 16:36 boiledwater 阅读(208) 评论(0) 推荐(0) 编辑
摘要: http://www.infoq.com/cn/articles/hbase-second-index-engine 原理 “二级多列索引”是针对目标记录的某个或某些列建立的“键-值”数据,以列的值为键,以记录的RowKey为值,当以这些列为条件进行查询时,引擎可以通过检索相应的“键-值”数据快速找 阅读全文
posted @ 2015-05-15 16:45 boiledwater 阅读(552) 评论(0) 推荐(0) 编辑
上一页 1 ··· 6 7 8 9 10