随笔分类 -  spark

摘要:1、使用c3p0 这个主要是因为c3p0实现了序列化,这样就可以直接传输到Worker上 ComboPooledDataSource 这个类主要是用来做生成数据库连接实例的,让它传到Worker上就可以直接使用了 2、业务代码 获取datasource 注意这里的InitialPoolSize不能太 阅读全文
posted @ 2018-04-03 22:55 irich 阅读(3108) 评论(0) 推荐(0)
摘要:1、RDD和DStream的区别 RDD: 弹性数据集,其中包含了多个partition,每个子集partition可以分布在不同节点上,在进行处理时分别在不同机器上进行处理; DStream: 对数据流按时间切分出来的一小批次,每个DStream对应多个RDD,这些RDD是按照时间维度进行划分的, 阅读全文
posted @ 2018-04-03 16:14 irich 阅读(598) 评论(0) 推荐(0)
摘要:我们自己编写了spark代码后;放到集群中一执行,就会出现问题,没有序列化、指定的配置文件不存在、classnotfound等等。这其实很多时候就是因为我们对自己编写的spark代码执行流程的不熟悉导致的,源码阅读可以解决,但源码不是每个人都能看懂或能看进去的,下面我们就来讲一下,我们自己写的spa 阅读全文
posted @ 2017-09-05 16:10 irich 阅读(2938) 评论(0) 推荐(0)

(全栈工程师③群:256909960,欢迎加入)全栈工程师③群