摘要:
一、DataFrame 1、DataFrame是组织成命名列的数据的分布式集合,类似于关系型数据库的一张表,如果没有列名就等于RDD,如果有列名,就是DataFrames DataFrames可以从各种各样的源构建,例如:结构化数据文件(JSON文件,xml文件),Hive中的表,外部数据库或现有R 阅读全文
posted @ 2017-04-06 20:14
凌-风
阅读(468)
评论(0)
推荐(0)
摘要:
一、HDFS前言 1、 设计思想 分而治之:将大文件,大批量文件,分布式的存放于大量服务器上。以便于采取分而治之的方式对海量数据进行运算分析 2、 在大数据系统架构中的应用 为各类分布式运算框架( MapReduce, Spark, Tez, Flink, …)提供数据存储服务 3、 重点概念: 数 阅读全文
posted @ 2017-04-06 19:53
凌-风
阅读(2678)
评论(0)
推荐(0)

浙公网安备 33010602011771号