10 2018 档案
摘要:一、概述 Spark SQL支持两种不同的方式将RDD转换为DataFrame。第一种是使用反射来推断包含特定类型对象的RDD的模式,这种基于反射的方式可以提供更简洁的代码,如果在编写Spark应用程序时,已经明确了schema,可以使用这种方式。第二种方式是...
阅读全文
摘要:一、环境准备 CDH5.15.0,spark2.3.0,hue3.9.0 注意:由于使用的是CDH集群,默认的spark版本为1.6.0,又通过parcel包的方式安装了spark2.3.0,此时集群存在两个spark版本。而hue集成的是spark1.6,需...
阅读全文
摘要:描述:在HDFS上有订单数据order.txt文件,文件字段的分割符号",",样本数据如下: Order_00001,Pdt_01,222.8 Order_00001,Pdt_05,25.8 Order_00002,Pdt_03,522.8 Order...
阅读全文
摘要:Oozie调度使用案例 环境准备CDH5.15.0,hue3.9.0+cdh5.15.0,oozie4.1.0+cdh5.15.0 2.使用案例 (1)在oozie-4.1.0-cdh5.15.0.tar.gz的解压目录中存在一个oozie-exa...
阅读全文
摘要:CDH5.15.0中的hue集成Hbase 1.确认hbase-site.xml配置文件中的如下内容 hbase.thrift.support.proxyuser true hbase.regionserver.thrift.http ...
阅读全文
摘要:一、环境准备 GP集群环境情况如下图所示,master实现容错,配置standby master。两个节点为segment节点,其中每个几点配置两个segment,未配置mirror segment。 二、使用案例 2.1登录数据库 登录Greenplu...
阅读全文
摘要:1.Creating the gpperfmon Database This topic describes how to crea...
阅读全文
摘要:** Greenplum5.9.0安装部署 ** 一. 配置系统并安装greenplum数据库 按顺序执行下面安装任务: 确认系统配...
阅读全文