摘要: 最近在hadoop上跑同步的问题, awk脚本神器也是学了一下。虽然看起来好像比较慢, 但是效果真的很不错。主要是在hadoop上求差集的操作。一类的格式是objurl另外一类的格式是 objurl \t seg1 \t seg2 或者 objurl \t seg3规则是第二类 减去 第一类的差集。 同时需要根据objurl去重。 去重的时候需要 尽量选择seg3这种。 在同种之类随机选择。脚本如下:BEGIN { first = ""; second = ""; third = ""; yes = 1;}{ ... 阅读全文
posted @ 2012-09-27 10:41 熊猫基地 阅读(262) 评论(0) 推荐(0)
摘要: 写脚本代码的时候重定向是一个很重要的功能,比如打印日志什么的都需要用到。大体来说: 重定向分为两种,一种叫临时重定向,一种叫长久重定向。临时重定向就是每次在输出的时候都必须指定重定向: echo good for u > log这里实际上省略了一个1(标准输入),代表将标准输入转向到log中。linux每个进程都有0, 1, 2 三个文件描述符。 重定向就是将这些文件描述符关联到相应的文件(设备), 比如默认的是0关联到标准输入,1关联到标准输出, 2关联到标准错误如果你觉得你需要将他们关联到不同的地方那么就 进行重定向----实际上就是改变0,1,2 关联到的文件, 比如上面的例子,... 阅读全文
posted @ 2012-09-27 10:25 熊猫基地 阅读(5627) 评论(0) 推荐(0)