08 2019 档案
摘要:一、jdbc连接数据库 我们知道spark可以通过jdbc查询数据库,但是Spark 通过 JDBC 读取关系型数据库,默认查询全表,只有一个 Task 去执行查询操作,大量数据情况下,效率是很慢的。 这时,可以通过构造多个 Task 并行连接 数据库提升效率。 二、spark sql属性介绍 1、
阅读全文
摘要:共性: 1、RDD、DataFrame、Dataset全都是spark平台下的分布式弹性数据集,为处理超大型数据提供便利 2、三者都有惰性机制,在进行创建、转换,如map方法时,不会立即执行,只有在遇到Action如foreach时,三者才会开始遍历运算,极端情况下,如果代码里面有创建、转换,但是后
阅读全文

浙公网安备 33010602011771号