08 2019 档案

spark并行查询

摘要：一、jdbc连接数据库我们知道spark可以通过jdbc查询数据库，但是Spark 通过 JDBC 读取关系型数据库，默认查询全表，只有一个 Task 去执行查询操作，大量数据情况下，效率是很慢的。这时，可以通过构造多个 Task 并行连接数据库提升效率。二、spark sql属性介绍 1、阅读全文

posted @ 2019-08-19 10:12 力扛九鼎阅读(952) 评论(0) 推荐(0)

Rdd 、dataframe、dataset共性与区别

摘要：共性： 1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集，为处理超大型数据提供便利 2、三者都有惰性机制，在进行创建、转换，如map方法时，不会立即执行，只有在遇到Action如foreach时，三者才会开始遍历运算，极端情况下，如果代码里面有创建、转换，但是后阅读全文

posted @ 2019-08-12 10:31 力扛九鼎阅读(984) 评论(0) 推荐(0)

力扛九鼎

08 2019 档案

公告