spark on hive 配置

       hive底层使用的是MapReduce,我们都知道,相比于mapreduce,spark要快的多,spark  sql  可以对接hive,读取hive中的数据,并且利用spark 计算引擎完成计算。

要实现spark  sql  处理hive中的数据,最关键的就是要spark获取hive表的元数据信息。

 在spark  客户端,切换到安装包下spark/conf目录,创建文件hive-site.xml:配置hive的metastore路径

<configuration>

   <property>

        <name>hive.metastore.uris</name>

        <value>thrift://node1:9083</value>

   </property>

</configuration>


启动spark-shell测试是否配置成功

1.启动zookeeper集群

2.启动HDFS集群

3.启动yarn集群

4.启动hive

  hive  --service   metastore   启动元数据服务       hive   启动客户端

5.启动spark集群

spark/sbin/start-all.sh   启动集群    

6.在spark客户端启动spark  shell

spark/bin/spark  -shell   --master   spark://node1:7077  

7.测试是否能连上hive元数据库

spark.sql("show   databases").show()   查看hive元数据库

如果能成功看到数据库名,证明配置成功。

 

posted @ 2020-07-26 22:50  鼬手牵佐手  阅读(791)  评论(0)    收藏  举报