11 2016 档案

摘要:根据若干年的统计(经验)或者气候(常识),某... 阅读全文
posted @ 2016-11-27 14:40 cn_wk 阅读(96) 评论(0) 推荐(0)
摘要:信息熵信息熵 表示 随机变量 的 不确定性。... 阅读全文
posted @ 2016-11-25 21:37 cn_wk 阅读(332) 评论(0) 推荐(0)
摘要:正则表达式 捕获型括号和非捕获型括号对于括号... 阅读全文
posted @ 2016-11-23 21:04 cn_wk 阅读(246) 评论(0) 推荐(0)
摘要:HIVE分区,实际上是通过一个路径来标识的,而不是在物理数据中。比如每天的数据,可能分区是pt=20121023这样,那么路径中它就会变成:/hdfs/path/pt=20121023/data_files。通过... 阅读全文
posted @ 2016-11-17 14:37 cn_wk 阅读(166) 评论(0) 推荐(0)
摘要:Hive的TRANSFORM关键字提供了在SQL中调用自写脚本的功能,适合实现Hive中没有的功能又不想写UDF的情况。例如,按日期统计每天出现的uid数,通常用如下的SQLSELECT date, count(... 阅读全文
posted @ 2016-11-17 10:01 cn_wk 阅读(80) 评论(0) 推荐(0)