王金松

2016年6月5日

摘要： load:加载数据 ,使其变成dataframe save:保存数据 load和save默认使用的是parquet格式，当然也可以通过format("json"), format("parquet")转换 SparkConf conf = new SparkConf().setMaster("loc 阅读全文

posted @ 2016-06-05 18:16 王金松阅读(486) 评论(0) 推荐(0) 编辑

Spark SQL on HIVE

摘要： 1. SPARK CONF中添加hive-site.xml hive.metastore.uris thrift://master:9083 2. 启动hive元数据 hive --metastore >meta.log 2>&1 & 3. scala>val hiveContext = new o 阅读全文

posted @ 2016-06-05 13:13 王金松阅读(408) 评论(0) 推荐(0) 编辑

spark hive区别

摘要：一:Hive本质是是什么 1：hive是分布式又是数据仓库，同时又是查询引擎，Spark SQL只是取代的HIVE的查询引擎这一部分，企业一般使用Hive+spark SQL进行开发 2：hive的主要工作 1> 把HQL翻译长map-reduce的代码，并且有可能产生很多mapreduce的job 阅读全文

posted @ 2016-06-05 12:05 王金松阅读(11716) 评论(0) 推荐(0) 编辑

2015年12月11日

hadoop三种连接方式

只有注册用户登录后才能阅读该文。阅读全文

posted @ 2015-12-11 16:43 王金松阅读(5) 评论(0) 推荐(0) 编辑

hadoop比较好的资源地址记录

只有注册用户登录后才能阅读该文。阅读全文

posted @ 2015-12-11 15:03 王金松阅读(3) 评论(0) 推荐(0) 编辑

storm 概念和原理讲解

只有注册用户登录后才能阅读该文。阅读全文

posted @ 2015-12-11 12:16 王金松阅读(2) 评论(0) 推荐(0) 编辑

trident state

只有注册用户登录后才能阅读该文。阅读全文

posted @ 2015-12-11 11:57 王金松阅读(6) 评论(0) 推荐(0) 编辑

2015年12月9日

flume 容错和负载均衡3

摘要：集群采用3台机器：host1 load-balance设置 host2 机器1 host3 机器2其中，host1 机器配置：#Define a memory channel called c1 on a1 a1.channels = c1 a1.sources = r1 a1.sinks... 阅读全文

posted @ 2015-12-09 14:42 王金松阅读(341) 评论(0) 推荐(0) 编辑

flume 容错和负载均衡2

只有注册用户登录后才能阅读该文。阅读全文

posted @ 2015-12-09 14:11 王金松阅读(4) 评论(0) 推荐(0) 编辑

flume 容错和负载均衡

摘要：【Apache Flume系列】Flume-ng failover 以及Load balance测试及注意事项252637867 1730 2014-08-14 15:44 flume 负载均衡容错 failover load balance 好久没写博客了。最近在研究storm、flume和ka... 阅读全文

posted @ 2015-12-09 13:57 王金松阅读(1617) 评论(0) 推荐(0) 编辑

公告