摘要:
最近项目中遇到了存储在HDFS上的数据格式不对,是由于数据中带有\r\n的字符,程序处理的时候没有考虑到这些情况。历史数据大概有一年的时间,需要把错误的数据或者重复的数据给删除了,保留正确的数据,项目中使用Pig来进行数据处理,所以我写了一个UDF的JAVA类去过滤那些错误的数据,把错误的数据和正确... 阅读全文
posted @ 2014-07-18 13:18
hugeshi
阅读(479)
评论(0)
推荐(0)
摘要:
Stepsuppose you need to develop a feature,when you finish the feature ,you need to release the jar to Nexus,and other projects will depend on your jar... 阅读全文
posted @ 2014-07-18 13:01
hugeshi
阅读(226)
评论(1)
推荐(0)
浙公网安备 33010602011771号