03 2019 档案
利用python进行数据分析
摘要:这本书看完,重点分为以下几大点: 1.Numpy包 这书数据分析的基础包,其中核心的我认为是ndarray,也就是一种多维数组对象; 这种数组里面还有索引和切片的概念,也很重要; 除此之外,计算多维数组还对应着许多通用函数,有些常用的函数,我们要记住且会使; 2.Pandas库 这个库在数据分析中是 阅读全文
posted @ 2019-03-29 18:04 章鱼哥儿 阅读(1236) 评论(0) 推荐(0)
spark性能优化
摘要:两种序列化机制: java和kryo序列化机制; 那么我们如何优化kryo类库的使用呢? 1、优化缓存大小 如果注册的要序列化的自定义的类型,本身就特别大,比如包括了超过100field,那么就会导致要序列化的对象过大, 此时就需要对kryo本身进行优化,因为kryo内部的缓存可能不够存放那么大的c 阅读全文
posted @ 2019-03-06 15:27 章鱼哥儿 阅读(242) 评论(0) 推荐(0)