随笔档案「2017年1月20日」：Spark SQL下的Parquet使用最佳实践和代码实战 ... - 乐得米

2017年1月20日

摘要：一：Spark SQL下的Parquet使用最佳实践 1，过去整个业界对大数据的分析的技术栈的Pipeline一般分为一下两种方式： A）Data Source -> HDFS -> MR/Hive/Spark(相当于ETL) -> HDFS Parquet -> SparkSQL/impala - 阅读全文

posted @ 2017-01-20 14:40 乐得米阅读(442) 评论(0) 推荐(0)

Hive中配置Parquet(CDH4.3

摘要： CDH4.3版本中并没有提供现成的Parquet安装包，所以如果在Hive或Impala中需要使用Parquet格式，需要手动进行安装，当创建Parquet格式的表时，需要定义Parquet相关的InputFormat,OutputFormat,Serde，建表语句如下 1 2 3 4 5 6 7 阅读全文

posted @ 2017-01-20 14:39 乐得米阅读(629) 评论(0) 推荐(0)

Java中逻辑与,逻辑或,按位与,按位或的区分

摘要：一直以来,对这样的概念很是模糊,今天总结了一下先说说逻辑与(&&),逻辑或(||) 他们是短路形式的,举例说明 int i = 0; System.out.println ( i++ == 1 && i++ == 2);//打印false System.out.println (i);//打印1 阅读全文

posted @ 2017-01-20 10:03 乐得米阅读(950) 评论(0) 推荐(0)

多表连接的三种方式详解 HASH JOIN MERGE JOIN NESTED LOOP

摘要：在多表联合查询的时候，如果我们查看它的执行计划，就会发现里面有多表之间的连接方式。之前打算在sqlplus中用执行计划的，但是格式看起来有点乱，就用Toad 做了3个截图。从3张图里我们看到了几点信息： 1. CBO 使用的ALL_ROWS模式 Oracle Optimizer CBO RBO 阅读全文

posted @ 2017-01-20 09:53 乐得米阅读(229) 评论(0) 推荐(0)

深入解析partition-hash分区

摘要：依据惯例，先看官网对hash partition的解释 Hash partitioning enables easy partitioning of data that does not lend itself to range or list partitioning. It does this 阅读全文

posted @ 2017-01-20 09:52 乐得米阅读(12348) 评论(0) 推荐(0)