摘要:既然如此,何不再抓一抓网页的文字内容呢? 谷歌浏览器有个审查元素的功能,就是按树的结构查看html的组织形式,如图: 这样已经比较明显了,博客的正文内容主要在div 的class =cnblogs_post_body 的字段p中,xpath秒杀搞定的节奏。sel.xpath('//div[@...
阅读全文
posted @ 2014-05-05 16:36
|
|||
05 2014 档案
摘要:既然如此,何不再抓一抓网页的文字内容呢? 谷歌浏览器有个审查元素的功能,就是按树的结构查看html的组织形式,如图: 这样已经比较明显了,博客的正文内容主要在div 的class =cnblogs_post_body 的字段p中,xpath秒杀搞定的节奏。sel.xpath('//div[@...
阅读全文
posted @ 2014-05-05 16:36
摘要:之前写了一篇用scrapy框架爬取自己博文的博客,后来发现对于中文的处理一直有问题- - 显示的时候[u'python\u4e0b\u722c\u67d0\u4e2a\u7f51\u9875\u7684\u56fe\u7247 - huhuuu - \u535a\u5ba2\u56ed'] 而...
阅读全文
posted @ 2014-05-05 15:14
摘要:scrapy框架是个比较简单易用基于python的爬虫框架,http://scrapy-chs.readthedocs.org/zh_CN/latest/ 这个是不错的中文文档 几个比较重要的部分: items.py:用来定义需要保存的变量,其中的变量用Field来定义,有点像python的...
阅读全文
posted @ 2014-05-04 15:00
|
|||