《用Python写网络爬虫》第二章踩坑

Firebug Lite

首先Firebug Lite 这个插件的chrome版本是需要从被屏蔽的Google拓展商店中下载的,为了学习不得不想办法FQ了。

在此推荐另一个chrome拓展:谷歌访问助手 ——让谷歌商店敞开大门

正则表达式

拓展阅读:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html

Beautiful Soup

完善html格式时,用文中的'html.parser'不能得到文中的正确修复结果:将'html.parser'替换为'lxml'解析器(需pip安装lxml)

Lxml

cssselect同样需要使用pip安装

Re、BS、Lxml性能对比

re.purge()方法,清楚正则缓存以优化内存占用

抓取回调 

写入数据时,要进行对row的判空处理,而不能直接用文中的写法。

 

posted @ 2018-11-06 11:24  雾中舞  阅读(132)  评论(0)    收藏  举报