RDD关键性能考量之 序列化格式
摘要:
《Spark快速大数据分析》8.4.2关键性能考量 序列化格式当Spark需要通过网络传输数据,或是将数据写到磁盘上时,Spark需要把数据序列化为二进制格式。序列化会在数据进行混洗操作时发生,此时有可能需要通过网络传输大量数据。默认情况下,Spark会使用Java内建的序列化库。Spark也支持使... 阅读全文
posted @ 2015-11-19 23:01 develooop 阅读(1264) 评论(0) 推荐(0)
浙公网安备 33010602011771号