05 2015 档案

摘要:在开发PySpark程序时通常会需要用到Java的对象,而PySpark本身也是建立在Java API之上,通过Py4j来创建JavaSparkContext。这里有几点是需要注意的1.Py4j只运行在driver也就是说worker目前来说引入不了第三方的jar包。因为worker结点的PySpa... 阅读全文
posted @ 2015-05-18 10:38 errdev 阅读(3824) 评论(0) 推荐(0)
摘要:在用PySpark操作HBase时默认是scan操作,通常情况下我们希望加上rowkey指定范围,即只获取一部分数据参加运算。翻遍了spark的python相关文档,搜遍了google和stackoverflow也没有具体的解决方案。既然java和scala都支持,python肯定也支持的。翻了一下... 阅读全文
posted @ 2015-05-13 12:48 errdev 阅读(4424) 评论(1) 推荐(0)