随笔分类 -  Spark

摘要:1.DataFrame与RDD的区别 RDD是分布式的 Java对象的集合 DataFrame是一种以RDD为基础的分布式数据集,也就是分布式的Row对象的集合(每个Row对象代表一行记录),提供了详细的结构信息,也就是我们经常说的模式(schema).简单理解就是类似表 2.Schema 是什么 阅读全文
posted @ 2017-10-10 20:20 soyosuyang 阅读(179) 评论(0) 推荐(0)