Spark - 随笔分类 - 架构师老狼

大数据实战手册-开发篇之spark实战案例：实时日志分析

摘要：2.6 spark实战案例：实时日志分析 2.6.1 交互流程图 2.6.2 客户端监听器（java） @SuppressWarnings("static access") private void handleSocket() { lock.lock(); Writer writer = nul 阅读全文

posted @ 2019-02-13 14:45 架构师老狼阅读(1177) 评论(1) 推荐(0)

大数据实战手册-开发篇之IO

摘要：2.4 sparkContext IO:读 2.4.1 textFile Load a text file and convert each line to a Row. lines = sc.textFile("examples/src/main/resources/people.txt") 2. 阅读全文

posted @ 2019-02-13 14:44 架构师老狼阅读(319) 评论(0) 推荐(0)

大数据实战手册-开发篇之RDD:计算 transform->action

摘要：2.2 RDD:计算 transform action 2.2.1 aggregate x = sc.parallelize([2,3,4], 2)[Task不能跨分片，task数为2] neutral_zero_value = (0,1) sum: x+0 = x, product: 1 x = 阅读全文

posted @ 2019-02-13 14:43 架构师老狼阅读(227) 评论(0) 推荐(0)

大数据实战手册-开发篇之pycharm远程开发调试

摘要：2.1 pycharm远程开发调试 2.1.1 python版本一致版本都保持3.6.6 root cd /usr/local/python3/bin/pip3 list 备注：[python模块导入顺序是从sys.path中取，可以代码加入到sys.path。当前目录 PYTHONPATH 安阅读全文

posted @ 2019-02-13 14:42 架构师老狼阅读(240) 评论(0) 推荐(0)

大数据实战手册-安装篇之安装配置

摘要：1.2 安装配置 1.2.1 安装jdk1.8 root vim /etc/profile export JAVA_HOME=/data/software/jdk1.8.0_191 export JRE_HOME=${JAVA_HOME}/jre export CLASSPATH=.:${JAVA_ 阅读全文

posted @ 2019-02-13 14:41 架构师老狼阅读(214) 评论(0) 推荐(0)

6大数据实战系列-sparkSql实战

摘要：sparkSql两个最重要的类SqlContext、DataFrame，DataFrame功能强大，能够与rdd互转换、支持sql操作如sql().where.order.join.groupBy.limit等。 SparkSql的查询响应性能是hive的几何级倍数，并且SparkSql支持多种数据源操作包括hive、hdfs、rdd、json、mysql，本文先讲解hive、hdfs、rdd、json4种数据源操作... 阅读全文

posted @ 2017-10-22 11:42 架构师老狼阅读(1575) 评论(0) 推荐(0)

5 大数据实战-hive实战分析

摘要：15年项目使用spark+hadoop，最近公司分享给小伙伴们，就整理出文档供大家学习交流。整理hdfs+hive+spark stream+spark sql实战系列，有些数据是网上搜索下载的，同时整理时也参考其他博文以及《spark实战》... 阅读全文

posted @ 2017-10-22 11:40 架构师老狼阅读(4489) 评论(1) 推荐(0)

4大数据实战系列-hive安装配置优化

摘要：15年项目使用spark+hadoop，最近公司分享给小伙伴们，就整理出文档供大家学习交流。整理hdfs+hive+spark stream+spark sql实战系列，有些数据是网上搜索下载的，同时整理时也参考其他博文以及《spark实战》... 阅读全文

posted @ 2017-10-22 11:33 架构师老狼阅读(371) 评论(0) 推荐(0)

2 大数据实战系列-spark shell wordcount

摘要：15年项目使用spark+hadoop，最近公司分享给小伙伴们，就整理出文档供大家学习交流。整理hdfs+hive+spark stream+spark sql实战系列，有些数据是网上搜索下载的，同时整理时也参考其他博文以及《spark实战》... 阅读全文

posted @ 2017-10-22 11:26 架构师老狼阅读(633) 评论(0) 推荐(0)

1 大数据实战系列-spark+hadoop集成环境搭建

摘要：15年项目使用spark+hadoop，最近公司分享给小伙伴们，就整理出文档供大家学习交流。整理hdfs+hive+spark stream+spark sql实战系列，有些数据是网上搜索下载的，同时整理时也参考其他博文以及《spark实战》... 阅读全文

posted @ 2017-10-22 11:22 架构师老狼阅读(3215) 评论(0) 推荐(0)

架构师老狼

资深架构师，专注于区块链、微服务、大数据研究！坚定信念，乐观心态，永不止步！

随笔分类 - Spark

公告