2018 年 11月随笔档案 - 大数据技术与数仓

摘要：1.Greenplum数据库中segment故障检测 1.1概述 Greenplum数据库服务器（Postgres）有一个子进程，该子进程为ftsprobe，主要作用是处理故障检测。 ftsprobe 监视Greenplum数据库阵列，它以可以配置的间隔连接并... 阅读全文

posted @ 2018-11-28 16:20 大数据技术与数仓阅读(892) 评论(0) 推荐(0)

摘要：目录 1.激活Standby master 2.恢复到原来的设置(option) 3.检查standby master的状态(option) 如果primary master节点失败，日志复制进程就会停止。可以使用gpstate -f命令查看sta... 阅读全文

posted @ 2018-11-28 14:01 大数据技术与数仓阅读(549) 评论(0) 推荐(0)

摘要：目录 1.Greenplum数据库中的冗余和故障转移 1.1关于Segment的mirror 1.2Segment故障转移和恢复 1.3关于Master的mirror 2.Greenplum数据库的高可用性 2.1 mirror segment概述 2.2... 阅读全文

posted @ 2018-11-27 22:03 大数据技术与数仓阅读(651) 评论(0) 推荐(0)

摘要：目录 1.安装sqluldr2 1.1 sqluldr2简介 1.2sqluldr2安装 2.将Oracle中的表导出成.CSV文件 2.1编写导出的执行语句 2.2执行上述的语句 3.在Greenplum中创建上述表，并将.CSV文件导入 3.1创建CUST... 阅读全文

posted @ 2018-11-27 14:40 大数据技术与数仓阅读(278) 评论(0) 推荐(0)

资源调度框架YARN

摘要：目录一、概述二、YARN的体系结构三、YARN的工作流程一、概述 MapReduce1.0既是一个计算框架，也是一个资源管理调度框架。到了Hadoop2.0以后，MapReduce1.0中的资源管理调度功能，被单独分离出来形成了YARN，它是一个纯... 阅读全文

posted @ 2018-11-21 15:15 大数据技术与数仓阅读(323) 评论(0) 推荐(0)

摘要：1.关于Greenplum的PL/pgSQL Greenplum数据库的PL/pgSQL是一种可加载的过程化语言， Greenplum数据库中已经默认安装和注册了改语言。用户可以使用SQL语句，函数和操作符来创建自定义函数。 PL/pgSQL是Oracl... 阅读全文

posted @ 2018-11-21 12:31 大数据技术与数仓阅读(243) 评论(0) 推荐(0)

摘要：CREATE FUNCTION 定义一个函数. 语法 CREATE [OR REPLACE] FUNCTION name ( [ [argmode] [argname] argtype [ { DEFAULT | = } defexpr ] [, ...] ]... 阅读全文

posted @ 2018-11-21 12:24 大数据技术与数仓阅读(486) 评论(0) 推荐(0)

Greenplum中游标的使用

摘要：CLOSE 描述：关闭一个游标语法： CLOSE cursor_name 注意：Greenplum数据库不支持显示地打开(open)游标，当一个游标被声明的时候就会被打开，使用declare语句声明并且打开一个游标 DECLARE 描述：定义一个游标语... 阅读全文

posted @ 2018-11-21 12:21 大数据技术与数仓阅读(435) 评论(0) 推荐(0)

摘要：目录一、概述二、使用gpfilespace创建文件空间三、创建表空间(Tablespace) 四、使用表空间存储数据库对象五、查看创建的表空间和文件空间六、删除表空间和文件空间一、概述表空间(Tablespace)允许数据库管理员在每个机器上... 阅读全文

posted @ 2018-11-14 23:08 大数据技术与数仓阅读(1294) 评论(0) 推荐(0)

Apache Flink简介

摘要：一、发展历史 Flink起源于一个名为Stratosphere的研究项目，目的是建立下一代大数据分析平台，于2014年4月16日成为Apache孵化器项目。Stratosphere的最初版本是基于Neffele的研究论文。下面的图表显示了Stratospher... 阅读全文

posted @ 2018-11-13 18:05 大数据技术与数仓阅读(371) 评论(0) 推荐(0)

摘要：对于一张数据表，如下图所示对上述表实现分组统计查询： select pageid,age,count(1) from pv_users group by pageid,age; 将上述的SQL查询语句改写成Spark的代码，如下： package com.... 阅读全文

posted @ 2018-11-13 10:43 大数据技术与数仓阅读(242) 评论(0) 推荐(0)

摘要：对于某些工作负载，可以通过在内存中缓存数据或打开一些实验选项来提高性能。 1.在内存中缓存数据 Spark SQL可以通过调用spark.catalog.cacheTable("tableName")或dataFrame.cache()使用内存中的列式格式来缓... 阅读全文

posted @ 2018-11-02 17:59 大数据技术与数仓阅读(345) 评论(0) 推荐(0)

posted @ 2018-11-01 14:26 大数据技术与数仓阅读(479) 评论(0) 推荐(0)

摘要：一、概述 DataFrames的内置函数提供了常见的聚合函数，比如count(), countDistinct(), avg(), max(), min()等，但是这些函数是为DataFrames而设计的，Spark SQL也有适用于强类型的Datasets的... 阅读全文

posted @ 2018-11-01 11:49 大数据技术与数仓阅读(251) 评论(0) 推荐(0)

大数据技术与数仓