牵牛花

2017年8月14日

spark与flume整合

摘要： spark-streaming与flume整合 push http://spark.apache.org/docs/1.6.3/streaming-flume-integration.html 阅读全文

posted @ 2017-08-14 13:44 牵牛花阅读(1453) 评论(0) 推荐(0)

spark sql 入门

摘要：如何在命令行中使用sparksql 阅读全文

posted @ 2017-08-14 11:24 牵牛花阅读(244) 评论(0) 推荐(0)

2017年8月13日

Parallelism , Partitioner

摘要：转：spark通过合理设置spark.default.parallelism参数提高执行效率 spark中有partition的概念（和slice是同一个概念，在spark1.2中官网已经做出了说明），一般每个partition对应一个task。在我的测试过程中，如果没有设置spark.defaul 阅读全文

posted @ 2017-08-13 16:56 牵牛花阅读(304) 评论(0) 推荐(0)

编译hadoop,spark遇到的问题总结

摘要：编译hadoop2.6.4 1、JDK8版本过高，换成JDK7； 2、换成命令行mvn package -Pdist,native -DskipTests-Dtar-Dmaven.javadoc.skip=true 注意：检查命令中-符号，而不是中文—，-Dmaven.javadoc.skip=tr 阅读全文

posted @ 2017-08-13 09:31 牵牛花阅读(301) 评论(0) 推荐(0)

2017年8月12日

scala,spark练习题提高

摘要： 1.求每家公司有哪些产品 2.验证par方法 case 的另一种使用场景阅读全文

posted @ 2017-08-12 17:03 牵牛花阅读(1312) 评论(0) 推荐(0)

2017年8月11日

元组复杂例子

摘要： def test4(): Unit = { val conf = new SparkConf().setAppName("WC").setMaster("local[2]") val sc = new SparkContext(conf) val arr = List(("Apache" -> "Spark"), ("Apache" -> "Kafka"), ("Orac... 阅读全文

posted @ 2017-08-11 21:47 牵牛花阅读(277) 评论(0) 推荐(0)

sparksql 操作hive

摘要：写在前面:hive的版本是1.2.1spark的版本是1.6.x http://spark.apache.org/docs/1.6.1/sql-programming-guide.html#hive-tables 查看hive和spark版本对应情况 SparkSQL操作Hive中的表数据spark 阅读全文

posted @ 2017-08-11 13:02 牵牛花阅读(19644) 评论(0) 推荐(0)

2017年8月10日

[转]Phoenix综述（史上最全Phoenix中文文档）

摘要： Phoenix综述（史上最全Phoenix中文文档）阅读全文

posted @ 2017-08-10 09:57 牵牛花阅读(610) 评论(0) 推荐(0)

CentOS7 上systemctl

摘要： CentOS 7 上systemctl 的用法 [日期：2014-11-10] 来源：Linux社区作者：Linux [字体：大中小] 我们对service和chkconfig两个命令都不陌生，systemctl 是管制服务的主要工具，它整合了chkconfig 与 service功能于一体。 systemctl is-enabled iptables.service ... 阅读全文

posted @ 2017-08-10 09:12 牵牛花阅读(207) 评论(0) 推荐(0)

2017年8月9日

mr中间结果优化

摘要：转载请注明出处：http://blog.csdn.net/lastsweetop/article/details/9187721 作为输入当压缩文件做为mapreduce的输入时，mapreduce将自动通过扩展名找到相应的codec对其解压。作为输出当mapreduce的输出文件需要压缩时，阅读全文

posted @ 2017-08-09 19:25 牵牛花阅读(266) 评论(0) 推荐(0)

公告