随笔分类 -  spark

摘要:最近在客户中使用spark sql 做一些表报处理,但是在做数据关联时,老是遇到 “correlated scalar subqueries must be aggregated” 错误 举一个例子,这个sql 在oracle 或者 postgresql 都是可以正常运行的,但是在spark sql 阅读全文
posted @ 2019-07-13 09:25 chenfool 阅读(2714) 评论(0) 推荐(1)
摘要:如果用户希望在spark sql 中,执行某个sql 后,将其结果集保存到本地,并且指定csv 或者 json 格式,在 beeline 中,实现起来很麻烦。通常的做法是将其create table tempTable as *** ,通过将结果集写入到新的临时表中,进行保存,然后再通过其他方式ex 阅读全文
posted @ 2019-05-04 14:45 chenfool 阅读(10265) 评论(0) 推荐(1)
摘要:本文主要介绍如何为 spark sql 的 metastore 配置成 mysql 。 spark 的版本 2.4.0 版本 hive script 版本为 hive 1.2.2 mysql 为 5.7.18 mysql 的安装部署就不在这里介绍了。 首先为 mysql 的root 用户设置密码 设 阅读全文
posted @ 2019-04-25 18:32 chenfool 阅读(1073) 评论(0) 推荐(0)
摘要:大数据生态圈很大,很多开发者都仅仅接触到某个单一产品。 Spark 是近年来比较流行的大数据计算框架,系统、平台要想用好Spark 这个产品,需要用到很多的产品。 本视频系列主要是为准备入坑大数据的童鞋提供一些入门级别的帮助,希望能够降低掉坑里的可能。 第一讲:Spark_整体介绍 链接:https 阅读全文
posted @ 2018-11-15 17:58 chenfool 阅读(2892) 评论(0) 推荐(1)
摘要:环境:ubuntu 12.04 64位桌面版 解压kafka 进入目录 创建data 目录 配置 config/server.properties 配置文件 zookeeper.connect=chen:2181 , chen是我的机器HOSTNAME,所以这里大家可以自行修改 启动kafka 服务 阅读全文
posted @ 2017-09-19 15:20 chenfool 阅读(236) 评论(0) 推荐(0)
摘要:zookeeper 版本为zookeeper 3.4.8 操作系统为ubuntu 12.04 64位 zookeeper 单机搭建 解压zookeeper 包 进入 zookeeper 目录 拷贝一份配置文件 创建zookeeper 的数据目录 在zoo.cfg 配置文件上配置如下内容 注意: se 阅读全文
posted @ 2017-09-17 17:06 chenfool 阅读(271) 评论(0) 推荐(0)
摘要:本篇文章主要记录最近在使用spark sql 时遇到的问题已经使用心得。 1 spark 2.0.1 中,启动thriftserver 或者是spark-sql时,如果希望spark-sql run on hdfs,那样需要增加参数 "--conf spark.sql.warehouse.dir=h 阅读全文
posted @ 2016-11-23 21:16 chenfool 阅读(8945) 评论(0) 推荐(0)
摘要:安装部署 tpc-ds-99 工具 解压文件 进入目录 拷贝Makefile文件 源码包缺少一个tokenizer.c 文件,作者从老版本的tpc-ds 包中找到放进去了,后附tokenizer.c 源码 编译可执行文件 创建临时目录 生成测试数据,测试数据总量为 1GB,生成的数据存放在tmp 目 阅读全文
posted @ 2016-09-22 10:45 chenfool 阅读(1343) 评论(0) 推荐(0)
摘要:本教程记录 spark 1.3.1 版本的thriftserver 的metastore 对接 postgresql postgresql 的编译,参考:http://www.cnblogs.com/chenfool/p/4530925.html 一 启动postgresql 服务 1 首先需要将p 阅读全文
posted @ 2015-05-27 13:11 chenfool 阅读(2057) 评论(0) 推荐(0)
摘要:上一篇博客我向大家介绍了如何快速地搭建spark run on standalone,下面我将介绍saprk sql 如何对接 hdfs 我们知道,在spark shell 中操作hdfs 上的数据是很方便的,但是操作也未免过于繁琐,幸好spark 还想用户提供另外两种操作 spark sql 的方 阅读全文
posted @ 2015-05-14 01:15 chenfool 阅读(18022) 评论(0) 推荐(0)
摘要:之前已经写过很多次部署spark 的博客,但是之前部署都是照瓢画葫芦,不得其中的细节,并且以前都是部署spark on yarn 部署环境 scala 2.10.2,jdk 1.6,spark 版本1.3.1 下载地址:https://spark.apache.org/downloads.html 阅读全文
posted @ 2015-05-13 21:20 chenfool 阅读(1078) 评论(0) 推荐(0)
摘要:spark 源码编译 scala 版本2.11.4 os:ubuntu 14.04 64位 memery 3G spark :1.1.0 下载源码后解压 1 准备环境,安装jdk和scala,具体参考:http://www.cnblogs.com/chenfool/p/3858930.html 2 阅读全文
posted @ 2014-11-14 11:46 chenfool 阅读(1095) 评论(0) 推荐(0)
摘要:环境:ubuntu 14.04, jdk 1.6, scala 2.11.4, spark 1.1.0, hadoop 2.5.1 一 spark 单机模式 部分操作参考:http://www.cnblogs.com/chenfool/p/3858930.html,我之前写的spark 1.0.1部 阅读全文
posted @ 2014-11-08 23:27 chenfool 阅读(1431) 评论(0) 推荐(0)
摘要:继续学习spark 认真查看了一下${SPARK_HOME}/bin/pyspark 的脚本,原来开启spark 的python 交互挺简单的。 主要操作 变量 PYTHONPATH,是指定它的lib 库的路径,参考web:http://www.afewords.com/blog/501915343 阅读全文
posted @ 2014-07-22 14:43 chenfool 阅读(538) 评论(0) 推荐(0)
摘要:环境:Ubuntu 12.04, JDK 1.6, scala 2.11.1, spark 1.0.1, hadoop 1.2.1 一 安装jdk 这里不细说了,自行google吧。 二 安装scala scala 官网:http://www.scala-lang.org/index.html,do 阅读全文
posted @ 2014-07-21 18:09 chenfool 阅读(774) 评论(0) 推荐(0)