摘要:
1、RDD的局限性 RDD仅表示数据集,RDD没有元数据,也就是说没有字段语义定义。 RDD需要用户自己优化程序,对程序员要求较高。 从不同数据源读取数据相对困难。 合并多个数据源中的数据也较困难。 2 DataFrame和Dataset (1)DataFrame 由于RDD的局限性,Spark产生 阅读全文
posted @ 2018-07-02 18:34
大葱拌豆腐
阅读(1031)
评论(0)
推荐(0)
摘要:
Spark SQL所支持的SQL语法 如果只用join进行查询,则支持的语法为: Spark SQL的SQL的框架 与Hive Metastore结合 (1)Spark要能找到HDFS和Hive的配置文件 第1种方法:可以直接将core-site.xml、hdfs-site.xml和hive-sit 阅读全文
posted @ 2018-07-02 17:40
大葱拌豆腐
阅读(2269)
评论(0)
推荐(0)
摘要:
Spark SQL快速入门 本地表 (1)准备数据 (2)确认HDFS已经启动 (3)进入spark-sql (4)创建表 (5)查看表结构 (6)查询本地数据表 使用spark-sql处理Hive MeteStore中的表 注意,默认HDFS已经启动。 (1)hive-site.xml hive可 阅读全文
posted @ 2018-07-02 17:25
大葱拌豆腐
阅读(1996)
评论(0)
推荐(0)
摘要:
Hive的meta数据支持以下三种存储方式,其中两种属于本地存储,一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式,链接为:Hive Metastore。 一、本地derby 这种方式是最简单的存储方式,只需要在hive-site.xml做如下配置便可 注:使用de 阅读全文
posted @ 2018-07-02 15:54
大葱拌豆腐
阅读(3439)
评论(0)
推荐(0)
浙公网安备 33010602011771号