spark streaming 使用geoIP解析IP
摘要:1、首先将GEOIP放到服务器上,如,/opt/db/geo/GeoLite2-City.mmdb 2、新建scala sbt工程,测试是否可以顺利解析 将该程序打包,放到服务器上,执行scala -cp ./scala_sbt-assembly-1.0.jar test,解析结果如下 countr
阅读全文
posted @
2016-07-17 16:50
zhangxuhui
阅读(2117)
推荐(1)
【源码学习之spark core 1.6.1 各种部署模式所使用的的TaskSceduler及SchedulerBackend】
摘要:说明:个人原创,转载请说明出处 http://www.cnblogs.com/piaolingzxh/p/5656879.html 未完待续 未完待续
阅读全文
posted @
2016-07-09 23:45
zhangxuhui
阅读(340)
推荐(0)
【源码学习之spark core 1.6.1 standalone模式下的作业提交】
摘要:说明:个人原创,转载请说明出处 http://www.cnblogs.com/piaolingzxh/p/5656876.html 未完待续
阅读全文
posted @
2016-07-09 23:42
zhangxuhui
阅读(309)
推荐(0)
【源码学习之spark streaming 1.6.1 】
摘要:说明:个人原创,转载请说明出处 http://www.cnblogs.com/piaolingzxh/p/5634577.html 未完待续
阅读全文
posted @
2016-07-01 23:51
zhangxuhui
阅读(286)
推荐(0)
spark 累加历史 + 统计全部 + 行转列
摘要:spark 累加历史主要用到了窗口函数,而进行全部统计,则需要用到rollup函数 1 应用场景: 1、我们需要统计用户的总使用时长(累加历史) 2、前台展现页面需要对多个维度进行查询,如:产品、地区等等 3、需要展现的表格头如: 产品、2015-04、2015-05、2015-06 2 原始数据:
阅读全文
posted @
2016-05-29 01:03
zhangxuhui
阅读(13319)
推荐(1)
spark 都用了哪些开源东东
摘要:直接上干货 commons-cli http://www.ibm.com/developerworks/cn/java/j-lo-commonscli/ guava http://www.cnblogs.com/peida/tag/Guava%E5%AD%A6%E4%B9%A0%E7%AC%94%E
阅读全文
posted @
2016-05-14 01:09
zhangxuhui
阅读(614)
推荐(0)
spark streaming之 windowDuration、slideDuration、batchDuration
摘要:spark streaming 不同于sotm,是一种准实时处理系统。storm 中,把批处理看错是时间教程的实时处理。而在spark streaming中,则反过来,把实时处理看作为时间极小的批处理。 1、三个时间参数 spark streaming 中有三个关于时间的参数,分别如下: 窗口时间w
阅读全文
posted @
2016-05-07 17:25
zhangxuhui
阅读(2588)
推荐(0)
spark 性能优化
摘要:1、内存 spark.storage.memoryFraction:很明显,是指spark缓存的大小,默认比例0.6 spark.shuffle.memoryFraction:管理executor中RDD和运行任务时的用于对象创建内存比例,默认0.2 关于这两个参数的设置,常见的一个场景就是操作关系
阅读全文
posted @
2016-04-24 23:10
zhangxuhui
阅读(1820)
推荐(0)
spark sql 窗口函数over partition by
摘要:1、窗口函数需要使用hiveContext,故引入如下包 libraryDependencies += "org.apache.spark" %% "spark-core" % "1.4.1" % "provided" libraryDependencies += "org.apache.spark
阅读全文
posted @
2016-04-24 21:55
zhangxuhui
阅读(5430)
推荐(0)
cassandra 之 在spark-shell 中使用 spark cassandra connector 完整案例
摘要:1、cassandra 准备 启动cqlsh, 2、spark cassandra conector jar包 新建空项目,使用sbt,引入connector,打包为spark-cassandra-connector-full.jar,在*.sbt文件中添加如下一行 libraryDependenc
阅读全文
posted @
2016-04-24 17:47
zhangxuhui
阅读(3055)
推荐(0)