07 2015 档案
-
Spark SQL编程指南(Python)
摘要:前言Spark SQL允许我们在Spark环境中使用SQL或者Hive SQL执行关系型查询。它的核心是一个特殊类型的Spark RDD:SchemaRDD。SchemaRDD类似于传统关系型数据库的一张表,由两部分组成:Rows:数据行对象Schema:数据行模式:列名、列数据类型、列可否为空等S... 阅读全文
-
Spark处理Json格式数据(Python)
摘要:前言Spark能够自动推断出Json数据集的“数据模式”(Schema),并将它加载为一个SchemaRDD实例。这种“自动”的行为是通过下述两种方法实现的:jsonFile:从一个文件目录中加载数据,这个目录中的文件的每一行均为一个JSON字符串(如果JSON字符串“跨行”,则可能导致解析错误);... 阅读全文