摘要:
S1.目标抓取一个网页并分析,从而:得到半结构化数据,如抓取新浪微博一个页面中的内容。得到其他网页的指针,如抓取新浪微博中下一个页面。下载文件,如这次要下载PDF的任务。多线程抓取与分布式抓取。自动密钥破解。S2.方法概述有多少种方法可以用的呢?1.自己写urllib2+urlparse+re最原始的办法,其中urllib2是python的web库、urlparse能处理url、re是正则库,这种方法写起来比较繁琐,但也比较“实在”,具体可以参考[4].urllib2+beautifulsoup这里的得力干将是beautifulsoup[5],beautifulsoup可以非常有效的解析HTM 阅读全文
posted @ 2013-05-10 14:23
Léon
阅读(813)
评论(0)
推荐(0)

浙公网安备 33010602011771号