scrapy - 随笔分类 - 捕蛇者说

【解决】win7 64 pip安装scrapy出错

摘要：问题一：microsoft visual c++ 9.0 is required 参考：http://www.cnblogs.com/ldm1989/p/4210743.html 问题二：ERROR: ‘xslt-config’ 不是内部或外部命令参考：http://www.crifan.com/ 阅读全文

posted @ 2016-02-18 09:07 捕蛇者说阅读(222) 评论(0) 推荐(0)

[scrapy] scrapy 使用goose作为正文提取

摘要：import scrapyfrom goose import Gooseclass Article(scrapy.Item): title = scrapy.Field() text = scrapy.Field()class MyGooseSpider(scrapy.Spider): ... 阅读全文

posted @ 2015-08-25 17:01 捕蛇者说阅读(497) 评论(0) 推荐(0)

百度贴吧楼层评论地址

摘要：http://tieba.baidu.com/p/comment?tid=3748203305&pid=68075095623&pn=1参数解析：tid:帖子ID，/p/后面的数字http://tieba.baidu.com/p/3748203305pid: 楼层ID，查看源代码，有类似post_... 阅读全文

posted @ 2015-06-27 10:08 捕蛇者说阅读(455) 评论(0) 推荐(0)

如何通过chrome的开发者工具查找新浪评论数据在哪个文件

摘要：1、打开开发者工具（ctrl+shift+i）2、打开搜索(Esc)示例：http://comment5.news.sina.com.cn/page/info?format=js&channel=jc&newsid=27-1-830221&group=0&compress=1&ie=gbk&oe=g... 阅读全文

posted @ 2015-05-21 17:35 捕蛇者说阅读(410) 评论(0) 推荐(0)

[scrapy] spider object has no attribute '_rules'

摘要：这是因为__init__方法没有继承父类解决办法：# -*- coding:utf-8 -*-from selenium import webdriverfrom scrapy.contrib.spiders import CrawlSpider, Rulefrom scrapy.contrib.l... 阅读全文

posted @ 2015-05-19 15:29 捕蛇者说阅读(2341) 评论(0) 推荐(1)

scrapy xpath 从response中获取li，然后再获取li中img的src

摘要：lis = response.xpath("//ul/li")for li in lis: src = li.xpath("img/@src") # 如果xpath表达式是"//img/@src"会把整个页面的所有图片src提取出来 alt = li.xpath("img/@alt") 阅读全文

posted @ 2015-04-28 10:22 捕蛇者说阅读(11388) 评论(0) 推荐(1)

[scrapy] 爬了第一页就停止 filtered off site request to

摘要：我碰到这个问题的原因是 allowed_domains 写错了至于还有没有别的原因就不知道了阅读全文

posted @ 2015-03-20 18:22 捕蛇者说阅读(434) 评论(0) 推荐(0)

[scrapy] exceptions.TypeError：XXX is not json serializable

摘要：原因是spider获取items.py中定义的字段的时候，忘记extract()了 def parseItem(self,response): sel = Selector(response) item = DynamicItem() item['title'] = sel.xpath('//... 阅读全文

posted @ 2015-03-20 09:42 捕蛇者说阅读(1672) 评论(0) 推荐(0)

随笔分类 - scrapy

公告