随笔分类 -  Hadoop

HIVE删除表数据
摘要:HIVE只有INSERT,没有UPDATE跟DELETE,所以通过其他的语句产生DETELE效果。 在HDFS上或者本地服务器上新建空的文件XXXXX, 然后执行: 阅读全文
posted @ 2016-08-01 18:24 回家的流浪者 阅读(709) 评论(0) 推荐(0)
Hive自定义UDAF详解
摘要:遇到一个Hive需求:有A、B、C三列,按A列进行聚合,求出C列聚合后的最小值和最大值各自对应的B列值。这个需求用hql和内建函数也可完成,但是比较繁琐,会解析成几个MR进行执行,如果自定义UDAF便可只利用一个MR完成任务。 所用Hive为0.13.1版本。UDAF有两种,第一种是比较简单的形式, 阅读全文
posted @ 2016-06-07 17:10 回家的流浪者 阅读(2411) 评论(0) 推荐(0)
Sqoop 命令
摘要:1)list-databases List available databases on a server sqoop list-databases --connect jdbc:db2://<server>:<port>/<database> --username username --passw 阅读全文
posted @ 2016-05-25 12:00 回家的流浪者 阅读(740) 评论(0) 推荐(0)
hive UDTF函数
摘要:之前说过HIVE,UDF(User-Defined-Function)函数的编写和使用,现在来看看UDTF的编写和使用。 1. UDTF介绍 UDTF(User-Defined Table-Generating Functions) 用来解决 输入一行输出多行(On-to-many maping) 阅读全文
posted @ 2016-05-13 11:23 回家的流浪者 阅读(9880) 评论(0) 推荐(0)
Spark SQL应用
摘要:Spark Shell启动后,就可以用Spark SQL API执行数据分析查询。 在第一个示例中,我们将从文本文件中加载用户数据并从数据集中创建一个DataFrame对象。然后运行DataFrame函数,执行特定的数据选择查询。 文本文件customers.txt中的内容如下: 下述代码片段展示了 阅读全文
posted @ 2016-04-20 19:29 回家的流浪者 阅读(437) 评论(0) 推荐(0)
hive UDF函数
摘要:—虽然Hive提供了很多函数,但是有些还是难以满足我们的需求。因此Hive提供了自定义函数开发 —自定义函数包括三种UDF、UADF、UDTF —UDF(User-Defined-Function) —UDAF(User- Defined Aggregation Funcation) —UDTF(U 阅读全文
posted @ 2016-04-17 10:59 回家的流浪者 阅读(2517) 评论(0) 推荐(0)
hadoop conf中xml文件修改
摘要:core-site.xml -------指定NameNode主机名与端口号 fs.default.name hdfs://localhost:9000 hadoop.tmp.dir /opt/data/tmp hdfs-site.xml ... 阅读全文
posted @ 2015-04-06 20:28 回家的流浪者 阅读(14993) 评论(0) 推荐(1)