会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
ERRDEV
Coding the world
博客园
首页
新随笔
联系
订阅
管理
2015年5月18日
PySpark调用自定义jar包
摘要: 在开发PySpark程序时通常会需要用到Java的对象,而PySpark本身也是建立在Java API之上,通过Py4j来创建JavaSparkContext。这里有几点是需要注意的1.Py4j只运行在driver也就是说worker目前来说引入不了第三方的jar包。因为worker结点的PySpa...
阅读全文
posted @ 2015-05-18 10:38 errdev
阅读(3802)
评论(0)
推荐(0)
2015年5月13日
PySpark操作HBase时设置scan参数
摘要: 在用PySpark操作HBase时默认是scan操作,通常情况下我们希望加上rowkey指定范围,即只获取一部分数据参加运算。翻遍了spark的python相关文档,搜遍了google和stackoverflow也没有具体的解决方案。既然java和scala都支持,python肯定也支持的。翻了一下...
阅读全文
posted @ 2015-05-13 12:48 errdev
阅读(4415)
评论(1)
推荐(0)
2015年4月23日
Spark及其应用场景初探
摘要: 最近老大让用Spark做一个ETL项目,搭建了一套只有三个结点Standalone模式的Spark集群做测试,基础数据量大概8000W左右。看了官方文档,Spark确实在Map-Reduce上提升了很多,可是官方明确提出了在Interactive Data方面性能提升最大。但是做ETL的数据之间是平...
阅读全文
posted @ 2015-04-23 23:59 errdev
阅读(2815)
评论(0)
推荐(0)
2015年4月20日
打造自己的Markdown编辑器
摘要: 原文链接:http://www.errdev.com/post/5/Markdown以其简洁的语法赢得了广大程序猿的喜爱,搜了一下github上相关的web编辑器,星星比较多的StackeditdillingerEpicEditor前面两个是集成的编辑器,提供很多的功能,可是我想找一个能嵌入到当前w...
阅读全文
posted @ 2015-04-20 20:17 errdev
阅读(1502)
评论(0)
推荐(0)
django 搭建自己的博客
摘要: 原文链接:http://www.errdev.com/post/4/每一个爱折腾的程序员都有自己的博客,好吧,虽然我不太喜欢写博客,但是这样骚包的想法却不断涌现。博客园虽好,可以没有完全的掌控感,搭了一段时间的Wordpress,奈何不是专门做前端的,懒得去做一套新的主题,折腾来折腾去还是决定自己做...
阅读全文
posted @ 2015-04-20 20:07 errdev
阅读(778)
评论(0)
推荐(1)
Hadoop 2.6 测试环境搭建
摘要: 原文链接:http://www.errdev.com/post/3/Hadoop2.6是目前Hadoop的最新版本,从下面链接获得http://hadoop.apache.org/releases.html#Download同时需要准备至少一台Linux, 这里我用了CentOS 7。虚拟机装Cen...
阅读全文
posted @ 2015-04-20 20:05 errdev
阅读(339)
评论(0)
推荐(0)
gVIM 简洁配置 in Windows
摘要: 原文链接:http://www.errdev.com/post/2/捣鼓了一段时间的VIM,神器终归是神器,果然编码效率提升了许多,当然还需要很多插件来配合。自己装插件很麻烦,还要有Vundle这个插件管理器Vundle - https://github.com/gmarik/Vundle.vim下...
阅读全文
posted @ 2015-04-20 19:44 errdev
阅读(466)
评论(0)
推荐(0)
公告