摘要: Hive嵌入Python Python的输入输出都是\t为分隔符,否则会出错,python脚本输入print出规定格式的数据 用法为先add file,使用语法为TRANSFORM (name, items) USING 'python test.py' AS (name string, item1 阅读全文
posted @ 2016-02-26 22:02 Bodi 阅读(1945) 评论(0) 推荐(0) 编辑
摘要: 要点:优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。 理解hadoop的核心能力,是hive优化的根本。 长期观察hadoop处理数据的过程,有几个显著的特征: 1.不怕数据多,就怕数据倾斜。 2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如 阅读全文
posted @ 2016-02-26 20:43 Bodi 阅读(768) 评论(0) 推荐(0) 编辑