2016年7月7日

基于hive的transform实现自定义分隔符数据导出

摘要: 1、建表语句 2、数据准备 3、加载数据 4、编写transform脚本 5、使用 hive -e 'sql' > result.data 进行数据导出 注: using 字句后面执行的python脚本的第一个参数 ^ 为分隔符 导出的结果: 摆渡人影院 阅读全文

posted @ 2016-07-07 15:00 奏乐 阅读(2119) 评论(0) 推荐(0) 编辑

MapReduce优化设置

摘要: Map阶段的优化 主要是确定合适的Map数。那么首先要了解Map数的计算公式: num_Map_tasks = max[${Mapred.min.split.size}, min(${dfs.block.size}, ${Mapred.max.split.size})] Mapred.min.spl 阅读全文

posted @ 2016-07-07 11:37 奏乐 阅读(641) 评论(0) 推荐(0) 编辑

hive.groupby.skewindata环境变量与负载均衡

摘要: HiveQL 去重操作和SQL一样,HiveQL中同样支持DISTINCT操作,如下示例:(1) SELECT count(DISTINCT uid) FROM log(2) SELECT ip, count(DISTINCT uid) FROM log GROUP BY ip(3) SELECT 阅读全文

posted @ 2016-07-07 11:34 奏乐 阅读(5233) 评论(0) 推荐(0) 编辑

hive的基本操作

摘要: 原文地址:http://www.91baidu.ren/post/baiduren/480.html 添加分区 ALTER TABLE table_name ADD PARTITION (partCol = 'value1') location 'loc1'; //示例 ALTER TABLE ta 阅读全文

posted @ 2016-07-07 11:31 奏乐 阅读(792) 评论(0) 推荐(0) 编辑

Shell 数组的定义和使用

摘要: 定义数组 在Shell中,用括号来表示数组,数组元素用“空格”符号分割开。定义数组的一般形式为: array_name=(value1 ... valuen)例如: array_name=(value0 value1 value2 value3)或者 array_name=(value0value1 阅读全文

posted @ 2016-07-07 11:27 奏乐 阅读(553) 评论(0) 推荐(0) 编辑

Linux文件比较,文本文件的交集、差集与求差

摘要: comm命令comm命令可以用于两个文件之间的比较,它有一些选项可以用来调整输出,以便执行交集、求差、以及差集操作。•交集:打印出两个文件所共有的行。•求差:打印出指定文件所包含的且不相同的行。•差集:打印出包含在一个文件中,但不包含在其他指定文件中的行。[root@localhost text]# 阅读全文

posted @ 2016-07-07 11:25 奏乐 阅读(275) 评论(0) 推荐(0) 编辑

Crontab 表达式详解

摘要: 一个cron表达式有至少6个(也可能7个,6个比7个少元素秒)由空格分隔的时间元素。从左往右按顺序依次为 秒(0~59) 分(0~59) 时(0~23)日(0~31,但是你需要考虑你月的天数)月(0~11)周(0~6 0=SUN 或 SUN,MON,TUE,WED,THU,FRI,SAT)年(197 阅读全文

posted @ 2016-07-07 11:22 奏乐 阅读(6578) 评论(0) 推荐(1) 编辑

Hadoop, HBase, Hive, ZooKeeper默认端口说明

摘要: 所有端口协议均基于TCP。 对于存在Web UI(HTTP服务)的所有hadoop daemon,有如下url: /logs 日志文件列表,用于下载和查看 /logLevel 允许你设定log4j的日志记录级别,类似于hadoop daemonlog /stacks 所有线程的stack trace 阅读全文

posted @ 2016-07-07 11:18 奏乐 阅读(19964) 评论(0) 推荐(1) 编辑

导航