回家的流浪者

2016年7月17日

摘要：浙江大学（ZJU）：http://acm.zju.edu.cn/ 北京大学（PKU）：http://acm.pku.edu.cn/JudgeOnline/ 同济大学（TJU）：http://acm.tongji.edu.cn/宁波理工（NIT）:http://acm.nit.net.cn中国地质大学阅读全文

posted @ 2016-07-17 22:56 回家的流浪者阅读(452) 评论(0) 推荐(0)

2016年7月15日

Java常用命令行工具

摘要：命令基于Sun JDK，用于监控和诊断HotSpot的java 虚拟机。对应的可执行文件位于$JAVA_HOME/bin/下 jps-虚拟机进程状况工具选项作用 -q 只输出LVMID，同进程pid -m 输出JVM启动时传给主类main()的参数。 -l 输出主类全名。如果进程执行的是jar 阅读全文

posted @ 2016-07-15 15:51 回家的流浪者阅读(2288) 评论(0) 推荐(0)

2016年6月7日

Hive自定义UDAF详解

摘要：遇到一个Hive需求：有A、B、C三列，按A列进行聚合，求出C列聚合后的最小值和最大值各自对应的B列值。这个需求用hql和内建函数也可完成，但是比较繁琐，会解析成几个MR进行执行，如果自定义UDAF便可只利用一个MR完成任务。所用Hive为0.13.1版本。UDAF有两种，第一种是比较简单的形式，阅读全文

posted @ 2016-06-07 17:10 回家的流浪者阅读(2410) 评论(0) 推荐(0)

2016年5月25日

Sqoop 命令

摘要： 1）list-databases List available databases on a server sqoop list-databases --connect jdbc:db2://<server>:<port>/<database> --username username --passw 阅读全文

posted @ 2016-05-25 12:00 回家的流浪者阅读(736) 评论(0) 推荐(0)

2016年5月13日

hive UDTF函数

摘要：之前说过HIVE，UDF(User-Defined-Function)函数的编写和使用，现在来看看UDTF的编写和使用。 1. UDTF介绍 UDTF(User-Defined Table-Generating Functions) 用来解决输入一行输出多行(On-to-many maping) 阅读全文

posted @ 2016-05-13 11:23 回家的流浪者阅读(9877) 评论(0) 推荐(0)

2016年5月5日

zookeeper适用场景：zookeeper解决了哪些问题

摘要：分布式系统的运行是很复杂的，因为涉及到了网络通信还有节点失效等不可控的情况。下面介绍在最传统的master-workers模型，主要可以会遇到什么问题，传统方法是怎么解决以及怎么用zookeeper解决。 Master节点管理集群当中最重要的是Master，所以一般都会设置一台Master的Back 阅读全文

posted @ 2016-05-05 11:03 回家的流浪者阅读(305) 评论(0) 推荐(0)

2016年4月20日

spark 将dataframe数据写入Hive分区表

摘要：从spark1.2 到spark1.3，spark SQL中的SchemaRDD变为了DataFrame，DataFrame相对于SchemaRDD有了较大改变，同时提供了更多好用且方便的API。DataFrame将数据写入hive中时，默认的是hive默认数据库，insertInto没有指定数据库阅读全文

posted @ 2016-04-20 19:35 回家的流浪者阅读(25438) 评论(1) 推荐(0)

Spark SQL应用

摘要： Spark Shell启动后，就可以用Spark SQL API执行数据分析查询。在第一个示例中，我们将从文本文件中加载用户数据并从数据集中创建一个DataFrame对象。然后运行DataFrame函数，执行特定的数据选择查询。文本文件customers.txt中的内容如下：下述代码片段展示了阅读全文

posted @ 2016-04-20 19:29 回家的流浪者阅读(424) 评论(0) 推荐(0)

2016年4月17日

hive UDF函数

摘要：虽然Hive提供了很多函数，但是有些还是难以满足我们的需求。因此Hive提供了自定义函数开发自定义函数包括三种UDF、UADF、UDTF UDF(User-Defined-Function) UDAF（User- Defined Aggregation Funcation） UDTF(U 阅读全文

posted @ 2016-04-17 10:59 回家的流浪者阅读(2513) 评论(0) 推荐(0)

2016年3月17日

HiveContext VS SQLContext

摘要： There are two ways to create context in Spark SQL: SqlContext:scala> import org.apache.spark.sql._scala> var sqlContext = new SQLContext(sc) HiveConte 阅读全文

posted @ 2016-03-17 16:23 回家的流浪者阅读(555) 评论(0) 推荐(0)