摘要: 上次纠结了那么久。结果不用编码也是可以匹配邮箱的。下面是一个用队列实现,广度优先的简单爬虫代码。先就这样吧,目测暂时不会再理它了,以后有时间再修改。(又是一个烂尾。。。。。)View Code 1 # -*- coding: cp936 -*- 2 import urllib2 3 import re 4 from pyquery import PyQuery as pq 5 from lxml import etree 6 7 #mailpattern = re.compile('[^\._:>\\-][\w\.-]+@(?:[A-Za-z0-9]+\.)+[... 阅读全文
posted @ 2013-05-02 21:27 细胞核 阅读(2089) 评论(0) 推荐(0) 编辑