python故障查找:超时未设置

最近一台基于python的应用服务总是出现问题。需求是用户可以在页面上提交批量处理任务,后台把这些任务入到一个Queue里排队处理,然后通过一个线程专门处理。现在总是偶尔出现假死状态,任务处理中断执行。开始总是以为是哪里出错了,导致程序中断。可以检查程序,任务处理过程全部try了,并打印日志。但是查找日志没有任何出错。首先要排查的线程到底有没有活着,如果活着,是在哪里阻塞了,所以想对任务处理线程执行dump,然后分析。本以为是python中有像jvm中的jstack的工具,但是上网查找没有结果,并提问了相关问题求救别人:http://segmentfault.com/q/1010000000506442 . 所以只能分析调试程序运行时的线程状态:

查找出python运行的进程id是3125, 运行:

gdb -p 3125
...
gdb info threads

发现一个很明显的问题,recv阻塞了。而且fd=9. 所以怀疑是读流在哪里卡住了,因为我的应用主要是抓取互联网上其它网站的信息,所以先查看是否有连接没有释放。

ls -l  /proc/3125/fd

果然是一个socket连接没有释放, 然后想查看下这个fd=9的详细信息:

lsof -p 3125
python  23243 tony    9u  IPv4             912004       0t0     TCP XXXXXX.linode.com:59047->205.204.96.104:http

然后这个ip就是抓取网站的ip。所以基本可以肯定是卡在这里了。因为我用的requests组件,本以为其默认会有一个读超时时间,但是查看文档没有发现, 所以手动加上:

requests.get('http://github.com', timeout=0.001)

 

posted @ 2014-06-18 11:51  海鸟  阅读(892)  评论(0编辑  收藏  举报