2016 年 7月 7 日随笔档案 - 奏乐

基于hive的transform实现自定义分隔符数据导出

摘要： 1、建表语句 2、数据准备 3、加载数据 4、编写transform脚本 5、使用 hive -e 'sql' > result.data 进行数据导出注： using 字句后面执行的python脚本的第一个参数 ^ 为分隔符导出的结果：摆渡人影院阅读全文

posted @ 2016-07-07 15:00 奏乐阅读(2119) 评论(0) 推荐(0) 编辑

MapReduce优化设置

摘要： Map阶段的优化主要是确定合适的Map数。那么首先要了解Map数的计算公式： num_Map_tasks = max[${Mapred.min.split.size}， min(${dfs.block.size}， ${Mapred.max.split.size})] Mapred.min.spl 阅读全文

posted @ 2016-07-07 11:37 奏乐阅读(641) 评论(0) 推荐(0) 编辑

hive.groupby.skewindata环境变量与负载均衡

摘要： HiveQL 去重操作和SQL一样，HiveQL中同样支持DISTINCT操作，如下示例：(1) SELECT count(DISTINCT uid) FROM log(2) SELECT ip, count(DISTINCT uid) FROM log GROUP BY ip(3) SELECT 阅读全文

posted @ 2016-07-07 11:34 奏乐阅读(5233) 评论(0) 推荐(0) 编辑

hive的基本操作

摘要：原文地址：http://www.91baidu.ren/post/baiduren/480.html 添加分区 ALTER TABLE table_name ADD PARTITION (partCol = 'value1') location 'loc1'; //示例 ALTER TABLE ta 阅读全文

posted @ 2016-07-07 11:31 奏乐阅读(792) 评论(0) 推荐(0) 编辑

Shell 数组的定义和使用

摘要：定义数组在Shell中，用括号来表示数组，数组元素用“空格”符号分割开。定义数组的一般形式为： array_name=(value1 ... valuen)例如： array_name=(value0 value1 value2 value3)或者 array_name=(value0value1 阅读全文

posted @ 2016-07-07 11:27 奏乐阅读(553) 评论(0) 推荐(0) 编辑

Linux文件比较，文本文件的交集、差集与求差

摘要： comm命令comm命令可以用于两个文件之间的比较，它有一些选项可以用来调整输出，以便执行交集、求差、以及差集操作。•交集：打印出两个文件所共有的行。•求差：打印出指定文件所包含的且不相同的行。•差集：打印出包含在一个文件中，但不包含在其他指定文件中的行。[root@localhost text]# 阅读全文

posted @ 2016-07-07 11:25 奏乐阅读(275) 评论(0) 推荐(0) 编辑

Crontab 表达式详解

摘要：一个cron表达式有至少6个（也可能7个，6个比7个少元素秒）由空格分隔的时间元素。从左往右按顺序依次为秒（0~59）分（0~59）时（0~23）日（0~31，但是你需要考虑你月的天数）月（0~11）周（0~6 0=SUN 或 SUN，MON，TUE，WED，THU，FRI，SAT）年（197 阅读全文

posted @ 2016-07-07 11:22 奏乐阅读(6578) 评论(0) 推荐(1) 编辑

Hadoop, HBase, Hive, ZooKeeper默认端口说明

摘要：所有端口协议均基于TCP。对于存在Web UI（HTTP服务）的所有hadoop daemon，有如下url： /logs 日志文件列表，用于下载和查看 /logLevel 允许你设定log4j的日志记录级别，类似于hadoop daemonlog /stacks 所有线程的stack trace 阅读全文

posted @ 2016-07-07 11:18 奏乐阅读(19964) 评论(0) 推荐(1) 编辑

修合无人见存心有天知 -- QQ群：243078574

修合无人见存心有天知 -- QQ群：243078574

基于hive的transform实现自定义分隔符数据导出

MapReduce优化设置

hive.groupby.skewindata环境变量与负载均衡

hive的基本操作

Shell 数组的定义和使用

Linux文件比较，文本文件的交集、差集与求差

Crontab 表达式详解

Hadoop, HBase, Hive, ZooKeeper默认端口说明

导航

公告

修合无人见 存心有天知 -- QQ群：243078574

导航

公告

修合无人见存心有天知 -- QQ群：243078574