随笔分类 - scrapy
摘要:问题一:microsoft visual c++ 9.0 is required 参考:http://www.cnblogs.com/ldm1989/p/4210743.html 问题二:ERROR: ‘xslt-config’ 不是内部或外部命令 参考:http://www.crifan.com/
阅读全文
摘要:import scrapyfrom goose import Gooseclass Article(scrapy.Item): title = scrapy.Field() text = scrapy.Field()class MyGooseSpider(scrapy.Spider): ...
阅读全文
摘要:http://tieba.baidu.com/p/comment?tid=3748203305&pid=68075095623&pn=1参数解析:tid:帖子ID,/p/后面的数字http://tieba.baidu.com/p/3748203305pid: 楼层ID, 查看源代码,有类似post_...
阅读全文
摘要:1、打开开发者工具(ctrl+shift+i)2、打开搜索(Esc)示例:http://comment5.news.sina.com.cn/page/info?format=js&channel=jc&newsid=27-1-830221&group=0&compress=1&ie=gbk&oe=g...
阅读全文
摘要:这是因为__init__方法没有继承父类解决办法:# -*- coding:utf-8 -*-from selenium import webdriverfrom scrapy.contrib.spiders import CrawlSpider, Rulefrom scrapy.contrib.l...
阅读全文
摘要:lis = response.xpath("//ul/li")for li in lis: src = li.xpath("img/@src") # 如果xpath表达式是"//img/@src"会把整个页面的所有图片src提取出来 alt = li.xpath("img/@alt")
阅读全文
摘要:我碰到这个问题的原因是 allowed_domains 写错了至于还有没有别的原因就不知道了
阅读全文
摘要:原因是spider获取items.py中定义的字段的时候,忘记extract()了 def parseItem(self,response): sel = Selector(response) item = DynamicItem() item['title'] = sel.xpath('//...
阅读全文
浙公网安备 33010602011771号