永远爱学习

导航

正则表达式获取西祠代理

def getProxy(text):
pattern = re.compile(u'<tr class=".*?">.*?'
+ u'<td class="country"><img.*?/></td>.*?'
+ u'<td>(\d+\.\d+\.\d+\.\d+)</td>.*?'
+ u'<td>(\d+)</td>.*?'
+ u'<td>.*?'
+ u'<a href=".*?">(.*?)</a>.*?'
+ u'</td>.*?'
+ u'<td class="country">(.*?)</td>.*?'
+ u'<td>([A-Z]+)</td>.*?'
+ '</tr>'
, re.S)
l = re.findall(pattern, text)
for item in l:
print(item)

posted on 2019-01-21 13:55  永远爱学习  阅读(79)  评论(0)    收藏  举报