雕刻时光

just do it……nothing impossible
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

05 2014 档案

摘要:既然如此,何不再抓一抓网页的文字内容呢? 谷歌浏览器有个审查元素的功能,就是按树的结构查看html的组织形式,如图: 这样已经比较明显了,博客的正文内容主要在div 的class =cnblogs_post_body 的字段p中,xpath秒杀搞定的节奏。sel.xpath('//div[@... 阅读全文

posted @ 2014-05-05 16:36 huhuuu 阅读(1593) 评论(0) 推荐(0)

摘要:之前写了一篇用scrapy框架爬取自己博文的博客,后来发现对于中文的处理一直有问题- - 显示的时候[u'python\u4e0b\u722c\u67d0\u4e2a\u7f51\u9875\u7684\u56fe\u7247 - huhuuu - \u535a\u5ba2\u56ed'] 而... 阅读全文

posted @ 2014-05-05 15:14 huhuuu 阅读(4202) 评论(0) 推荐(0)

摘要:scrapy框架是个比较简单易用基于python的爬虫框架,http://scrapy-chs.readthedocs.org/zh_CN/latest/ 这个是不错的中文文档 几个比较重要的部分: items.py:用来定义需要保存的变量,其中的变量用Field来定义,有点像python的... 阅读全文

posted @ 2014-05-04 15:00 huhuuu 阅读(24353) 评论(0) 推荐(1)