随笔分类 - spark
摘要:1、使用c3p0 这个主要是因为c3p0实现了序列化,这样就可以直接传输到Worker上 ComboPooledDataSource 这个类主要是用来做生成数据库连接实例的,让它传到Worker上就可以直接使用了 2、业务代码 获取datasource 注意这里的InitialPoolSize不能太
阅读全文
摘要:1、RDD和DStream的区别 RDD: 弹性数据集,其中包含了多个partition,每个子集partition可以分布在不同节点上,在进行处理时分别在不同机器上进行处理; DStream: 对数据流按时间切分出来的一小批次,每个DStream对应多个RDD,这些RDD是按照时间维度进行划分的,
阅读全文
摘要:我们自己编写了spark代码后;放到集群中一执行,就会出现问题,没有序列化、指定的配置文件不存在、classnotfound等等。这其实很多时候就是因为我们对自己编写的spark代码执行流程的不熟悉导致的,源码阅读可以解决,但源码不是每个人都能看懂或能看进去的,下面我们就来讲一下,我们自己写的spa
阅读全文

浙公网安备 33010602011771号