spark - 随笔分类 - chenfool

spark sql correlated scalar subqueries must be aggregated 错误解决

摘要：最近在客户中使用spark sql 做一些表报处理，但是在做数据关联时，老是遇到 “correlated scalar subqueries must be aggregated” 错误举一个例子，这个sql 在oracle 或者 postgresql 都是可以正常运行的，但是在spark sql 阅读全文

posted @ 2019-07-13 09:25 chenfool 阅读(2730) 评论(0) 推荐(1)

spark sql 导出数据

摘要：如果用户希望在spark sql 中，执行某个sql 后，将其结果集保存到本地，并且指定csv 或者 json 格式，在 beeline 中，实现起来很麻烦。通常的做法是将其create table tempTable as *** ，通过将结果集写入到新的临时表中，进行保存，然后再通过其他方式ex 阅读全文

posted @ 2019-05-04 14:45 chenfool 阅读(10271) 评论(0) 推荐(1)

spark sql metastore 配置 mysql

摘要：本文主要介绍如何为 spark sql 的 metastore 配置成 mysql 。 spark 的版本 2.4.0 版本 hive script 版本为 hive 1.2.2 mysql 为 5.7.18 mysql 的安装部署就不在这里介绍了。首先为 mysql 的root 用户设置密码设阅读全文

posted @ 2019-04-25 18:32 chenfool 阅读(1085) 评论(0) 推荐(0)

Spark系列视频

摘要：大数据生态圈很大，很多开发者都仅仅接触到某个单一产品。 Spark 是近年来比较流行的大数据计算框架，系统、平台要想用好Spark 这个产品，需要用到很多的产品。本视频系列主要是为准备入坑大数据的童鞋提供一些入门级别的帮助，希望能够降低掉坑里的可能。第一讲：Spark_整体介绍链接:https 阅读全文

posted @ 2018-11-15 17:58 chenfool 阅读(2976) 评论(0) 推荐(1)

kafka 安装部署

摘要：环境：ubuntu 12.04 64位桌面版解压kafka 进入目录创建data 目录配置 config/server.properties 配置文件 zookeeper.connect=chen:2181 ， chen是我的机器HOSTNAME，所以这里大家可以自行修改启动kafka 服务阅读全文

posted @ 2017-09-19 15:20 chenfool 阅读(238) 评论(0) 推荐(0)

zookeeper 搭建

摘要：zookeeper 版本为zookeeper 3.4.8 操作系统为ubuntu 12.04 64位 zookeeper 单机搭建解压zookeeper 包进入 zookeeper 目录拷贝一份配置文件创建zookeeper 的数据目录在zoo.cfg 配置文件上配置如下内容注意： se 阅读全文

posted @ 2017-09-17 17:06 chenfool 阅读(271) 评论(0) 推荐(0)

spark sql 优化心得

摘要：本篇文章主要记录最近在使用spark sql 时遇到的问题已经使用心得。 1 spark 2.0.1 中，启动thriftserver 或者是spark-sql时，如果希望spark-sql run on hdfs，那样需要增加参数 "--conf spark.sql.warehouse.dir=h 阅读全文

posted @ 2016-11-23 21:16 chenfool 阅读(8950) 评论(0) 推荐(0)

tpc-ds99 工具使用

摘要：安装部署 tpc-ds-99 工具解压文件进入目录拷贝Makefile文件源码包缺少一个tokenizer.c 文件，作者从老版本的tpc-ds 包中找到放进去了，后附tokenizer.c 源码编译可执行文件创建临时目录生成测试数据，测试数据总量为 1GB，生成的数据存放在tmp 目阅读全文

posted @ 2016-09-22 10:45 chenfool 阅读(1345) 评论(0) 推荐(0)

spark sql 的metastore 对接 postgresql

摘要：本教程记录 spark 1.3.1 版本的thriftserver 的metastore 对接 postgresql postgresql 的编译，参考：http://www.cnblogs.com/chenfool/p/4530925.html 一启动postgresql 服务 1 首先需要将p 阅读全文

posted @ 2015-05-27 13:11 chenfool 阅读(2063) 评论(0) 推荐(0)

spark sql 对接 HDFS

摘要：上一篇博客我向大家介绍了如何快速地搭建spark run on standalone，下面我将介绍saprk sql 如何对接 hdfs 我们知道，在spark shell 中操作hdfs 上的数据是很方便的，但是操作也未免过于繁琐，幸好spark 还想用户提供另外两种操作 spark sql 的方阅读全文

posted @ 2015-05-14 01:15 chenfool 阅读(18032) 评论(0) 推荐(0)

部署spark 1.3.1 standalong模式

摘要：之前已经写过很多次部署spark 的博客，但是之前部署都是照瓢画葫芦，不得其中的细节，并且以前都是部署spark on yarn 部署环境 scala 2.10.2，jdk 1.6，spark 版本1.3.1 下载地址：https://spark.apache.org/downloads.html 阅读全文

posted @ 2015-05-13 21:20 chenfool 阅读(1078) 评论(0) 推荐(0)

Spark 学习(三) maven 编译spark 源码

摘要：spark 源码编译 scala 版本2.11.4 os：ubuntu 14.04 64位 memery 3G spark ：1.1.0 下载源码后解压 1 准备环境，安装jdk和scala，具体参考：http://www.cnblogs.com/chenfool/p/3858930.html 2 阅读全文

posted @ 2014-11-14 11:46 chenfool 阅读(1099) 评论(0) 推荐(0)

spark 1.1.0 单机与yarn部署

摘要：环境：ubuntu 14.04, jdk 1.6, scala 2.11.4, spark 1.1.0, hadoop 2.5.1 一 spark 单机模式部分操作参考：http://www.cnblogs.com/chenfool/p/3858930.html，我之前写的spark 1.0.1部阅读全文

posted @ 2014-11-08 23:27 chenfool 阅读(1433) 评论(0) 推荐(0)

Spark 学习(二)

摘要：继续学习spark 认真查看了一下${SPARK_HOME}/bin/pyspark 的脚本，原来开启spark 的python 交互挺简单的。主要操作变量 PYTHONPATH，是指定它的lib 库的路径，参考web:http://www.afewords.com/blog/501915343 阅读全文

posted @ 2014-07-22 14:43 chenfool 阅读(539) 评论(0) 推荐(0)

Spark 学习

摘要：环境：Ubuntu 12.04， JDK 1.6， scala 2.11.1， spark 1.0.1， hadoop 1.2.1 一安装jdk 这里不细说了，自行google吧。二安装scala scala 官网：http://www.scala-lang.org/index.html，do 阅读全文

posted @ 2014-07-21 18:09 chenfool 阅读(775) 评论(0) 推荐(0)

chenfool

随笔分类 - spark

公告