spark - 随笔分类 - zhangxuhui

spark streaming 使用geoIP解析IP

摘要：1、首先将GEOIP放到服务器上，如，/opt/db/geo/GeoLite2-City.mmdb 2、新建scala sbt工程，测试是否可以顺利解析将该程序打包，放到服务器上，执行scala -cp ./scala_sbt-assembly-1.0.jar test，解析结果如下 countr 阅读全文

posted @ 2016-07-17 16:50 zhangxuhui 阅读(2117) 评论(1) 推荐(1)

【源码学习之spark core 1.6.1 各种部署模式所使用的的TaskSceduler及SchedulerBackend】

摘要：说明：个人原创，转载请说明出处 http://www.cnblogs.com/piaolingzxh/p/5656879.html 未完待续未完待续阅读全文

posted @ 2016-07-09 23:45 zhangxuhui 阅读(340) 评论(0) 推荐(0)

【源码学习之spark core 1.6.1 standalone模式下的作业提交】

摘要：说明：个人原创，转载请说明出处 http://www.cnblogs.com/piaolingzxh/p/5656876.html 未完待续阅读全文

posted @ 2016-07-09 23:42 zhangxuhui 阅读(309) 评论(0) 推荐(0)

【源码学习之spark streaming 1.6.1 】

摘要：说明：个人原创，转载请说明出处 http://www.cnblogs.com/piaolingzxh/p/5634577.html 未完待续阅读全文

posted @ 2016-07-01 23:51 zhangxuhui 阅读(286) 评论(0) 推荐(0)

spark udf 初识初用

摘要：直接上代码，详见注释阅读全文

posted @ 2016-06-10 15:50 zhangxuhui 阅读(4948) 评论(0) 推荐(0)

spark 累加历史 + 统计全部 + 行转列

摘要：spark 累加历史主要用到了窗口函数，而进行全部统计，则需要用到rollup函数 1 应用场景： 1、我们需要统计用户的总使用时长（累加历史） 2、前台展现页面需要对多个维度进行查询，如：产品、地区等等 3、需要展现的表格头如：产品、2015-04、2015-05、2015-06 2 原始数据：阅读全文

posted @ 2016-05-29 01:03 zhangxuhui 阅读(13319) 评论(1) 推荐(1)

spark 都用了哪些开源东东

摘要：直接上干货 commons-cli http://www.ibm.com/developerworks/cn/java/j-lo-commonscli/ guava http://www.cnblogs.com/peida/tag/Guava%E5%AD%A6%E4%B9%A0%E7%AC%94%E 阅读全文

posted @ 2016-05-14 01:09 zhangxuhui 阅读(614) 评论(0) 推荐(0)

spark streaming之 windowDuration、slideDuration、batchDuration

摘要：spark streaming 不同于sotm，是一种准实时处理系统。storm 中，把批处理看错是时间教程的实时处理。而在spark streaming中，则反过来，把实时处理看作为时间极小的批处理。 1、三个时间参数 spark streaming 中有三个关于时间的参数，分别如下：窗口时间w 阅读全文

posted @ 2016-05-07 17:25 zhangxuhui 阅读(2588) 评论(0) 推荐(0)

spark 性能优化

摘要：1、内存 spark.storage.memoryFraction：很明显，是指spark缓存的大小，默认比例0.6 spark.shuffle.memoryFraction：管理executor中RDD和运行任务时的用于对象创建内存比例，默认0.2 关于这两个参数的设置，常见的一个场景就是操作关系阅读全文

posted @ 2016-04-24 23:10 zhangxuhui 阅读(1820) 评论(0) 推荐(0)

spark sql 窗口函数over partition by

摘要：1、窗口函数需要使用hiveContext，故引入如下包 libraryDependencies += "org.apache.spark" %% "spark-core" % "1.4.1" % "provided" libraryDependencies += "org.apache.spark 阅读全文

posted @ 2016-04-24 21:55 zhangxuhui 阅读(5430) 评论(0) 推荐(0)

cassandra 之在spark-shell 中使用 spark cassandra connector 完整案例

摘要：1、cassandra 准备启动cqlsh， 2、spark cassandra conector jar包新建空项目，使用sbt,引入connector,打包为spark-cassandra-connector-full.jar，在*.sbt文件中添加如下一行 libraryDependenc 阅读全文

posted @ 2016-04-24 17:47 zhangxuhui 阅读(3055) 评论(0) 推荐(0)

随笔分类 - spark