2016 年 7月 16 日随笔档案 - 狗日的阳光

2016年7月16日

摘要：有一个项目需要爬虫来采集一些数据，在Python下Scrapy的名气应该是最大的了。对于一个新鲜的模块，我的习惯第一件事情便是看文档。 Scrapy英文文档 Scrapy中文文档 Scrapy中文手册 Scrapy的翻译热情不太高，英语好的同学可以看最新的英文文档，至于不太好的同学可以先看0.25 阅读全文

posted @ 2016-07-16 18:18 狗日的阳光阅读(169) 评论(0) 推荐(0)

Python模块--Requests <HTTP访问模块>

摘要： urllib2是一个不错的HTTP访问库，但是API的设计太理性化，导致人类这个生物使用会遇到各种综合头疼。 Requests诙谐又有趣的介绍如下： Requests 唯一的一个非转基因的 Python HTTP 库，人类可以安全享用。警告：非专业使用其他 HTTP 库会导致危险的副作用，包括：安阅读全文

posted @ 2016-07-16 17:43 狗日的阳光阅读(198) 评论(0) 推荐(0)

python模块--BeautifulSoup <HTML/XML文档搜索模块>

摘要：之前解析字符串都是上正则，导致后来解析HTML/XML也习惯上正则，可是毕竟正则太底层的东西，对于这种有规律的文档，它不是一个好的选择。后来发现了HTMLParser，感觉比正则好多了，正想深入学习一下，却发现了这个。 BeautifulSoup 一比较然后我把以前代码里面的解析HTML/XML的阅读全文

posted @ 2016-07-16 17:28 狗日的阳光阅读(380) 评论(0) 推荐(0)

Python模块--PublicSuffix/PublicSuffix2 <获取URL的域名>

摘要： .com/.cn/.org之类的域名很好解决类似.com.cn/.org.cn类似的域名没有直接的办法解决，本想搜集所有的顶级域名生成list然后使用正则匹配，却发现了这个。 PublicSuffix PublicSuffix2 基本的用法在介绍里面都有，但是需要注意这里面的几个坑，就是一条URL 阅读全文

posted @ 2016-07-16 17:11 狗日的阳光阅读(1989) 评论(0) 推荐(0)

狗日的阳光

公告