摘要: 一、DataFrame 1、DataFrame是组织成命名列的数据的分布式集合,类似于关系型数据库的一张表,如果没有列名就等于RDD,如果有列名,就是DataFrames DataFrames可以从各种各样的源构建,例如:结构化数据文件(JSON文件,xml文件),Hive中的表,外部数据库或现有R 阅读全文
posted @ 2017-04-06 20:14 凌-风 阅读(468) 评论(0) 推荐(0)
摘要: 一、HDFS前言 1、 设计思想 分而治之:将大文件,大批量文件,分布式的存放于大量服务器上。以便于采取分而治之的方式对海量数据进行运算分析 2、 在大数据系统架构中的应用 为各类分布式运算框架( MapReduce, Spark, Tez, Flink, …)提供数据存储服务 3、 重点概念: 数 阅读全文
posted @ 2017-04-06 19:53 凌-风 阅读(2678) 评论(0) 推荐(0)