随笔分类 - Spark
摘要:2.6 spark实战案例:实时日志分析 2.6.1 交互流程图 2.6.2 客户端监听器 (java) @SuppressWarnings("static access") private void handleSocket() { lock.lock(); Writer writer = nul
阅读全文
摘要:2.4 sparkContext IO:读 2.4.1 textFile Load a text file and convert each line to a Row. lines = sc.textFile("examples/src/main/resources/people.txt") 2.
阅读全文
摘要:2.2 RDD:计算 transform action 2.2.1 aggregate x = sc.parallelize([2,3,4], 2)[Task不能跨分片,task数为2] neutral_zero_value = (0,1) sum: x+0 = x, product: 1 x =
阅读全文
摘要:2.1 pycharm远程开发调试 2.1.1 python版本一致 版本都保持3.6.6 root cd /usr/local/python3/bin/pip3 list 备注:[python模块导入顺序是从sys.path中取,可以代码加入到sys.path。 当前目录 PYTHONPATH 安
阅读全文
摘要:1.2 安装配置 1.2.1 安装jdk1.8 root vim /etc/profile export JAVA_HOME=/data/software/jdk1.8.0_191 export JRE_HOME=${JAVA_HOME}/jre export CLASSPATH=.:${JAVA_
阅读全文
摘要:sparkSql两个最重要的类SqlContext、DataFrame,DataFrame功能强大,能够与rdd互转换、支持sql操作如sql().where.order.join.groupBy.limit等。 SparkSql的查询响应性能是hive的几何级倍数,并且SparkSql支持多种数据源操作包括hive、hdfs、rdd、json、mysql,本文先讲解hive、hdfs、rdd、json4种数据源操作...
阅读全文
摘要:15年项目使用spark+hadoop,最近公司分享给小伙伴们,就整理出文档供大家学习交流。整理hdfs+hive+spark stream+spark sql实战系列,有些数据是网上搜索下载的,同时整理时也参考其他博文以及《spark实战》...
阅读全文
摘要:15年项目使用spark+hadoop,最近公司分享给小伙伴们,就整理出文档供大家学习交流。整理hdfs+hive+spark stream+spark sql实战系列,有些数据是网上搜索下载的,同时整理时也参考其他博文以及《spark实战》...
阅读全文
摘要:15年项目使用spark+hadoop,最近公司分享给小伙伴们,就整理出文档供大家学习交流。整理hdfs+hive+spark stream+spark sql实战系列,有些数据是网上搜索下载的,同时整理时也参考其他博文以及《spark实战》...
阅读全文
摘要:15年项目使用spark+hadoop,最近公司分享给小伙伴们,就整理出文档供大家学习交流。整理hdfs+hive+spark stream+spark sql实战系列,有些数据是网上搜索下载的,同时整理时也参考其他博文以及《spark实战》...
阅读全文

浙公网安备 33010602011771号