文章分类 - sparkSql
摘要:dataframe dataset 与 SparkSession 1,dataframe 是 dataset[Row] 2,dataframe 存储着 schema(数据的结构信息,字段与类型等) 信息 3,dataset 可以实现实时批量处理的一种方式 4,RDD dataframe DataSet 可以互相转换 5,SparkSession(编程入口) 整合了 S...
        阅读全文
                
摘要:scala 内置函数 1,DataFrame API之中的内置函数进行了优化,不再返回一个结果,而是返回一个 Column对象,并且在并行作业之中 2, Column 可以用来在 DataFrame 的操作之中,比如 select filter和 groupBy计算 3, scala 内置函数分为 聚合函数,集合函数(例如,array_contains),日期时间函数,混合函数(例如:求随机...
        阅读全文
                
摘要:Parquet 支持元数据合并: 1,主要是针对多个 Parquet文件,并且有着可以互相兼容进行合并 2,开启自动合并的两种方式: 1),读取 Parquet文件时将数据源选项 mergeSchema 设置为true 2),使用 SQLContext.setConf() 将 spark.sql.parquet.mergeSchema设置为 true package da...
        阅读全文
                
摘要:spark sql 性能技术简介: 1,内存列存储(in-memory columnar storage):Spark sql 的数据,不是使用 java 对象的方式来进行存储,而是使用了面向列的方式进行存储。每一列作为一个数据存储的单位,从而大大的优化了内存的使用效率,减少了对内存的消耗,也就避免了gc的大量数据的性能消耗 2,字节码生成技术(byte-core generation...
        阅读全文
                
 
                    
                     
                    
                 
                    
                
 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号