摘要: 最近项目中遇到了存储在HDFS上的数据格式不对,是由于数据中带有\r\n的字符,程序处理的时候没有考虑到这些情况。历史数据大概有一年的时间,需要把错误的数据或者重复的数据给删除了,保留正确的数据,项目中使用Pig来进行数据处理,所以我写了一个UDF的JAVA类去过滤那些错误的数据,把错误的数据和正确... 阅读全文
posted @ 2014-07-18 13:18 hugeshi 阅读(479) 评论(0) 推荐(0)
摘要: Stepsuppose you need to develop a feature,when you finish the feature ,you need to release the jar to Nexus,and other projects will depend on your jar... 阅读全文
posted @ 2014-07-18 13:01 hugeshi 阅读(226) 评论(1) 推荐(0)