摘要: 有一个项目需要爬虫来采集一些数据,在Python下Scrapy的名气应该是最大的了。 对于一个新鲜的模块,我的习惯第一件事情便是看文档。 Scrapy英文文档 Scrapy中文文档 Scrapy中文手册 Scrapy的翻译热情不太高,英语好的同学可以看最新的英文文档,至于不太好的同学可以先看0.25 阅读全文
posted @ 2016-07-16 18:18 狗日的阳光 阅读(168) 评论(0) 推荐(0)
摘要: urllib2是一个不错的HTTP访问库,但是API的设计太理性化,导致人类这个生物使用会遇到各种综合头疼。 Requests诙谐又有趣的介绍如下: Requests 唯一的一个非转基因的 Python HTTP 库,人类可以安全享用。 警告:非专业使用其他 HTTP 库会导致危险的副作用,包括:安 阅读全文
posted @ 2016-07-16 17:43 狗日的阳光 阅读(195) 评论(0) 推荐(0)
摘要: 之前解析字符串都是上正则,导致后来解析HTML/XML也习惯上正则,可是毕竟正则太底层的东西,对于这种有规律的文档,它不是一个好的选择。 后来发现了HTMLParser,感觉比正则好多了,正想深入学习一下,却发现了这个。 BeautifulSoup 一比较然后我把以前代码里面的解析HTML/XML的 阅读全文
posted @ 2016-07-16 17:28 狗日的阳光 阅读(377) 评论(0) 推荐(0)
摘要: .com/.cn/.org之类的域名很好解决 类似.com.cn/.org.cn类似的域名没有直接的办法解决,本想搜集所有的顶级域名生成list然后使用正则匹配,却发现了这个。 PublicSuffix PublicSuffix2 基本的用法在介绍里面都有,但是需要注意这里面的几个坑,就是一条URL 阅读全文
posted @ 2016-07-16 17:11 狗日的阳光 阅读(1987) 评论(0) 推荐(0)