2014 年 5月随笔档案 - huhuuu

使用scrapy框架爬取自己的博文（3）

摘要：既然如此，何不再抓一抓网页的文字内容呢？谷歌浏览器有个审查元素的功能，就是按树的结构查看html的组织形式，如图：这样已经比较明显了，博客的正文内容主要在div 的class =cnblogs_post_body 的字段p中，xpath秒杀搞定的节奏。sel.xpath('//div[@... 阅读全文

posted @ 2014-05-05 16:36 huhuuu 阅读(1593) 评论(0) 推荐(0)

使用scrapy框架爬取自己的博文（2）

摘要：之前写了一篇用scrapy框架爬取自己博文的博客，后来发现对于中文的处理一直有问题- - 显示的时候[u'python\u4e0b\u722c\u67d0\u4e2a\u7f51\u9875\u7684\u56fe\u7247 - huhuuu - \u535a\u5ba2\u56ed'] 而... 阅读全文

posted @ 2014-05-05 15:14 huhuuu 阅读(4202) 评论(0) 推荐(0)

使用scrapy框架爬取自己的博文

摘要：scrapy框架是个比较简单易用基于python的爬虫框架，http://scrapy-chs.readthedocs.org/zh_CN/latest/ 这个是不错的中文文档几个比较重要的部分： items.py：用来定义需要保存的变量，其中的变量用Field来定义，有点像python的... 阅读全文

posted @ 2014-05-04 15:00 huhuuu 阅读(24353) 评论(0) 推荐(1)

雕刻时光

公告

05 2014 档案

使用scrapy框架爬取自己的博文（3）

使用scrapy框架爬取自己的博文（2）

使用scrapy框架爬取自己的博文