2017年1月20日
摘要: 一:Spark SQL下的Parquet使用最佳实践 1,过去整个业界对大数据的分析的技术栈的Pipeline一般分为一下两种方式: A)Data Source -> HDFS -> MR/Hive/Spark(相当于ETL) -> HDFS Parquet -> SparkSQL/impala - 阅读全文
posted @ 2017-01-20 14:40 乐得米 阅读(438) 评论(0) 推荐(0)
摘要: CDH4.3版本中并没有提供现成的Parquet安装包,所以如果在Hive或Impala中需要使用Parquet格式,需要手动进行安装,当创建Parquet格式的表时,需要定义Parquet相关的InputFormat,OutputFormat,Serde,建表语句如下 1 2 3 4 5 6 7 阅读全文
posted @ 2017-01-20 14:39 乐得米 阅读(626) 评论(0) 推荐(0)
摘要: 一直以来,对这样的概念很是模糊,今天总结了一下 先说说逻辑与(&&),逻辑或(||) 他们是短路形式的,举例说明 int i = 0; System.out.println ( i++ == 1 && i++ == 2);//打印false System.out.println (i);//打印1  阅读全文
posted @ 2017-01-20 10:03 乐得米 阅读(950) 评论(0) 推荐(0)
摘要: 在多表联合查询的时候,如果我们查看它的执行计划,就会发现里面有多表之间的连接方式。 之前打算在sqlplus中用执行计划的,但是格式看起来有点乱,就用Toad 做了3个截图。 从3张图里我们看到了几点信息: 1. CBO 使用的ALL_ROWS模式 Oracle Optimizer CBO RBO 阅读全文
posted @ 2017-01-20 09:53 乐得米 阅读(228) 评论(0) 推荐(0)
摘要: 依据惯例,先看官网对hash partition的解释 Hash partitioning enables easy partitioning of data that does not lend itself to range or list partitioning. It does this 阅读全文
posted @ 2017-01-20 09:52 乐得米 阅读(12338) 评论(0) 推荐(0)