《用Python写网络爬虫》第二章踩坑
Firebug Lite
首先Firebug Lite 这个插件的chrome版本是需要从被屏蔽的Google拓展商店中下载的,为了学习不得不想办法FQ了。
在此推荐另一个chrome拓展:谷歌访问助手 ——让谷歌商店敞开大门
正则表达式
拓展阅读:http://www.cnblogs.com/huxi/archive/2010/07/04/1771073.html
Beautiful Soup
完善html格式时,用文中的'html.parser'不能得到文中的正确修复结果:将'html.parser'替换为'lxml'解析器(需pip安装lxml)
Lxml
cssselect同样需要使用pip安装
Re、BS、Lxml性能对比
re.purge()方法,清楚正则缓存以优化内存占用
抓取回调
写入数据时,要进行对row的判空处理,而不能直接用文中的写法。

浙公网安备 33010602011771号