sparkSql - 文章分类 - 十七楼的羊

dataframe dataset 与 SparkSession(代码示例)

摘要：dataframe dataset 与 SparkSession 1,dataframe 是 dataset[Row] 2,dataframe 存储着 schema(数据的结构信息,字段与类型等) 信息 3,dataset 可以实现实时批量处理的一种方式 4,RDD dataframe DataSet 可以互相转换 5,SparkSession(编程入口) 整合了 S... 阅读全文

posted @ 2019-07-03 23:34 十七楼的羊阅读(659) 评论(0) 推荐(0)

spark sql 技术说明与常见的操作(其三)

摘要：scala 内置函数 1,DataFrame API之中的内置函数进行了优化,不再返回一个结果,而是返回一个 Column对象,并且在并行作业之中 2, Column 可以用来在 DataFrame 的操作之中,比如 select filter和 groupBy计算 3, scala 内置函数分为聚合函数,集合函数(例如,array_contains),日期时间函数,混合函数(例如:求随机... 阅读全文

posted @ 2019-04-29 00:24 十七楼的羊阅读(204) 评论(0) 推荐(0)

spark sql 技术说明与常见的操作(其二)

摘要：Parquet 支持元数据合并： 1,主要是针对多个 Parquet文件，并且有着可以互相兼容进行合并 2,开启自动合并的两种方式: 1),读取 Parquet文件时将数据源选项 mergeSchema 设置为true 2),使用 SQLContext.setConf() 将 spark.sql.parquet.mergeSchema设置为 true package da... 阅读全文

posted @ 2019-04-14 12:06 十七楼的羊阅读(557) 评论(0) 推荐(0)

spark sql 技术说明与常见的操作(其一)

摘要：spark sql 性能技术简介: 1,内存列存储(in-memory columnar storage):Spark sql 的数据,不是使用 java 对象的方式来进行存储,而是使用了面向列的方式进行存储。每一列作为一个数据存储的单位，从而大大的优化了内存的使用效率，减少了对内存的消耗,也就避免了gc的大量数据的性能消耗 2,字节码生成技术(byte-core generation... 阅读全文

posted @ 2019-03-30 13:05 十七楼的羊阅读(544) 评论(0) 推荐(0)

十七楼的羊

文章分类 - sparkSql

公告