随笔分类 -  scrapy

摘要:问题一:microsoft visual c++ 9.0 is required 参考:http://www.cnblogs.com/ldm1989/p/4210743.html 问题二:ERROR: ‘xslt-config’ 不是内部或外部命令 参考:http://www.crifan.com/ 阅读全文
posted @ 2016-02-18 09:07 捕蛇者说 阅读(216) 评论(0) 推荐(0)
摘要:import scrapyfrom goose import Gooseclass Article(scrapy.Item): title = scrapy.Field() text = scrapy.Field()class MyGooseSpider(scrapy.Spider): ... 阅读全文
posted @ 2015-08-25 17:01 捕蛇者说 阅读(483) 评论(0) 推荐(0)
摘要:http://tieba.baidu.com/p/comment?tid=3748203305&pid=68075095623&pn=1参数解析:tid:帖子ID,/p/后面的数字http://tieba.baidu.com/p/3748203305pid: 楼层ID, 查看源代码,有类似post_... 阅读全文
posted @ 2015-06-27 10:08 捕蛇者说 阅读(436) 评论(0) 推荐(0)
摘要:1、打开开发者工具(ctrl+shift+i)2、打开搜索(Esc)示例:http://comment5.news.sina.com.cn/page/info?format=js&channel=jc&newsid=27-1-830221&group=0&compress=1&ie=gbk&oe=g... 阅读全文
posted @ 2015-05-21 17:35 捕蛇者说 阅读(404) 评论(0) 推荐(0)
摘要:这是因为__init__方法没有继承父类解决办法:# -*- coding:utf-8 -*-from selenium import webdriverfrom scrapy.contrib.spiders import CrawlSpider, Rulefrom scrapy.contrib.l... 阅读全文
posted @ 2015-05-19 15:29 捕蛇者说 阅读(2330) 评论(0) 推荐(1)
摘要:lis = response.xpath("//ul/li")for li in lis: src = li.xpath("img/@src") # 如果xpath表达式是"//img/@src"会把整个页面的所有图片src提取出来 alt = li.xpath("img/@alt") 阅读全文
posted @ 2015-04-28 10:22 捕蛇者说 阅读(11379) 评论(0) 推荐(1)
摘要:我碰到这个问题的原因是 allowed_domains 写错了至于还有没有别的原因就不知道了 阅读全文
posted @ 2015-03-20 18:22 捕蛇者说 阅读(428) 评论(0) 推荐(0)
摘要:原因是spider获取items.py中定义的字段的时候,忘记extract()了 def parseItem(self,response): sel = Selector(response) item = DynamicItem() item['title'] = sel.xpath('//... 阅读全文
posted @ 2015-03-20 09:42 捕蛇者说 阅读(1664) 评论(0) 推荐(0)