2018 年 7月 2 日随笔档案 - 大葱拌豆腐

2018年7月2日

摘要： 1、RDD的局限性 RDD仅表示数据集，RDD没有元数据，也就是说没有字段语义定义。 RDD需要用户自己优化程序，对程序员要求较高。从不同数据源读取数据相对困难。合并多个数据源中的数据也较困难。 2 DataFrame和Dataset （1）DataFrame 由于RDD的局限性，Spark产生阅读全文

posted @ 2018-07-02 18:34 大葱拌豆腐阅读(1034) 评论(0) 推荐(0)

Spark2.x学习笔记：Spark SQL的SQL

摘要： Spark SQL所支持的SQL语法如果只用join进行查询，则支持的语法为： Spark SQL的SQL的框架与Hive Metastore结合（1）Spark要能找到HDFS和Hive的配置文件第1种方法：可以直接将core-site.xml、hdfs-site.xml和hive-sit 阅读全文

posted @ 2018-07-02 17:40 大葱拌豆腐阅读(2274) 评论(0) 推荐(0)

Spark2.x学习笔记：Spark SQL快速入门

摘要： Spark SQL快速入门本地表（1）准备数据（2）确认HDFS已经启动（3）进入spark-sql （4）创建表（5）查看表结构（6）查询本地数据表使用spark-sql处理Hive MeteStore中的表注意，默认HDFS已经启动。（1）hive-site.xml hive可阅读全文

posted @ 2018-07-02 17:25 大葱拌豆腐阅读(2001) 评论(0) 推荐(0)

Hive metastore三种配置方式

摘要： Hive的meta数据支持以下三种存储方式，其中两种属于本地存储，一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式，链接为：Hive Metastore。一、本地derby 这种方式是最简单的存储方式，只需要在hive-site.xml做如下配置便可注：使用de 阅读全文

posted @ 2018-07-02 15:54 大葱拌豆腐阅读(3447) 评论(0) 推荐(0)

公告