摘要: 使用正则抓取oschina博客专区首页数据,包括:博客链接地址、标题、摘要、发布人、发布时间#coding:utf-8import urllib2,redef getpage(url): f=urllib2.Request(url) #此时添加header,模拟浏览器访问,否则会报错:H... 阅读全文
posted @ 2013-11-11 17:22 前行者2011 阅读(141) 评论(0) 推荐(0)
摘要: #coding:utf-8from HTMLParser import HTMLParserimport pprintclass myhtml(HTMLParser): def __init__(self): HTMLParser.__init__(self) se... 阅读全文
posted @ 2013-11-11 12:06 前行者2011 阅读(179) 评论(0) 推荐(0)