2013年12月9日

pig 介绍与pig版 hello world

摘要: 前两天使用pig做ETL,粗浅的看了一下,没有系统地学习,感觉pig还是值得学习的,故又重新看programming pig.以下是看的第一章的笔记:What is pig?Pig provides an engine for executing data flows in parallel on Hadoop. It includes alanguage, Pig Latin, for expressing these data flows. Pig Latin includes operators formany of the traditional data operations (jo 阅读全文

posted @ 2013-12-09 14:29 tneduts 阅读(416) 评论(0) 推荐(0) 编辑

xml in hadoop ETL with pig summary

摘要: 项目中需要把source为xml的文件通过flume放置到hdfs,然后通过MR导入到vertica中去,我之前做过简单的尝试,是通过pig的piggybank的xmlloader然后Regex_extract来提取结点属性做的,但问题是我之前只取了一层结点的属性,没有把不同层次结点关联起来,这有三四层,结构比较复杂,我需要重新整理思路.这种方式很可能走不通,因为piggybank里面regex_extract的正则和传统的正则还是有些异同的.常常会因为正则写的不合适经常返回空元组.我是一个c# guy,又不会用纯java写MR,所以就进一步搜索了google.查找相关资料.1.把XML先转成 阅读全文

posted @ 2013-12-09 07:18 tneduts 阅读(549) 评论(0) 推荐(0) 编辑

导航