随笔分类 -  Spark

摘要:2.6 spark实战案例:实时日志分析 2.6.1 交互流程图 2.6.2 客户端监听器 (java) @SuppressWarnings("static access") private void handleSocket() { lock.lock(); Writer writer = nul 阅读全文
posted @ 2019-02-13 14:45 架构师老狼 阅读(1177) 评论(1) 推荐(0)
摘要:2.4 sparkContext IO:读 2.4.1 textFile Load a text file and convert each line to a Row. lines = sc.textFile("examples/src/main/resources/people.txt") 2. 阅读全文
posted @ 2019-02-13 14:44 架构师老狼 阅读(319) 评论(0) 推荐(0)
摘要:2.2 RDD:计算 transform action 2.2.1 aggregate x = sc.parallelize([2,3,4], 2)[Task不能跨分片,task数为2] neutral_zero_value = (0,1) sum: x+0 = x, product: 1 x = 阅读全文
posted @ 2019-02-13 14:43 架构师老狼 阅读(227) 评论(0) 推荐(0)
摘要:2.1 pycharm远程开发调试 2.1.1 python版本一致 版本都保持3.6.6 root cd /usr/local/python3/bin/pip3 list 备注:[python模块导入顺序是从sys.path中取,可以代码加入到sys.path。 当前目录 PYTHONPATH 安 阅读全文
posted @ 2019-02-13 14:42 架构师老狼 阅读(240) 评论(0) 推荐(0)
摘要:1.2 安装配置 1.2.1 安装jdk1.8 root vim /etc/profile export JAVA_HOME=/data/software/jdk1.8.0_191 export JRE_HOME=${JAVA_HOME}/jre export CLASSPATH=.:${JAVA_ 阅读全文
posted @ 2019-02-13 14:41 架构师老狼 阅读(214) 评论(0) 推荐(0)
摘要:sparkSql两个最重要的类SqlContext、DataFrame,DataFrame功能强大,能够与rdd互转换、支持sql操作如sql().where.order.join.groupBy.limit等。 SparkSql的查询响应性能是hive的几何级倍数,并且SparkSql支持多种数据源操作包括hive、hdfs、rdd、json、mysql,本文先讲解hive、hdfs、rdd、json4种数据源操作... 阅读全文
posted @ 2017-10-22 11:42 架构师老狼 阅读(1575) 评论(0) 推荐(0)
摘要:15年项目使用spark+hadoop,最近公司分享给小伙伴们,就整理出文档供大家学习交流。整理hdfs+hive+spark stream+spark sql实战系列,有些数据是网上搜索下载的,同时整理时也参考其他博文以及《spark实战》... 阅读全文
posted @ 2017-10-22 11:40 架构师老狼 阅读(4489) 评论(1) 推荐(0)
摘要:15年项目使用spark+hadoop,最近公司分享给小伙伴们,就整理出文档供大家学习交流。整理hdfs+hive+spark stream+spark sql实战系列,有些数据是网上搜索下载的,同时整理时也参考其他博文以及《spark实战》... 阅读全文
posted @ 2017-10-22 11:33 架构师老狼 阅读(371) 评论(0) 推荐(0)
摘要:15年项目使用spark+hadoop,最近公司分享给小伙伴们,就整理出文档供大家学习交流。整理hdfs+hive+spark stream+spark sql实战系列,有些数据是网上搜索下载的,同时整理时也参考其他博文以及《spark实战》... 阅读全文
posted @ 2017-10-22 11:26 架构师老狼 阅读(633) 评论(0) 推荐(0)
摘要:15年项目使用spark+hadoop,最近公司分享给小伙伴们,就整理出文档供大家学习交流。整理hdfs+hive+spark stream+spark sql实战系列,有些数据是网上搜索下载的,同时整理时也参考其他博文以及《spark实战》... 阅读全文
posted @ 2017-10-22 11:22 架构师老狼 阅读(3215) 评论(0) 推荐(0)