上一页 1 ··· 127 128 129 130 131 132 133 134 135 ··· 198 下一页
摘要: scrapy下使用item才是正经方法。在item中定义需要保存的内容,然后在pipeline处理item,爬虫流程就成了这样: 抓取 --> 按item规则收集需要数据 -->使用pipeline处理(存储等) 定义item,在items.py中定义抓取内容 我们将数据库的配置信息保存在setti 阅读全文
posted @ 2018-09-25 14:47 brady-wang 阅读(609) 评论(0) 推荐(0)
摘要: scrapy错误:yield scrapy.Request()不执行、失效、Filtered offsite request to错误。首先我们在Request()方法里面添加这么一个东东:yield Request(url, callback=self.parse_item, dont_filte 阅读全文
posted @ 2018-09-25 14:14 brady-wang 阅读(2488) 评论(0) 推荐(0)
摘要: 一、首先我们来看scrapy spider如何打开页面:要打开页面,我们用的是手,同样scrapy也有一个得力助手:spider;至于spider如何打开页面,且听我娓娓道来,如果一上来就噼里啪啦的给诸位说scrapy spiders需要继承神马类、神马方法、神马常量,我想很多喷油都会觉得莫名其妙, 阅读全文
posted @ 2018-09-25 14:08 brady-wang 阅读(989) 评论(0) 推荐(0)
摘要: 如果要文件管道保存为原有的文件名 需要重写文件管道的方法 pipeitem文件 setting配置 spider文件 item文件 阅读全文
posted @ 2018-09-24 14:18 brady-wang 阅读(736) 评论(0) 推荐(0)
摘要: 图片管道启用: item中必须包含image_urls和images属性 image_urls中必须是列表,每个元素是一个带有http的链接 images里面数据任意,经过图片管道后会被重新赋值 图片管道必须被启用 配置文件中的选项: ITEM_PIPELINES = { 'scrapy.pipelines.images.ImagesPipeline':2, # 'images.pipeline... 阅读全文
posted @ 2018-09-24 11:27 brady-wang 阅读(489) 评论(0) 推荐(0)
摘要: # *_*coding:utf-8 *_* import urllib.request from lxml import etree import requests def requests_view(response): request_url = response.url base_url = ' ' % (request_url) base_url = ba... 阅读全文
posted @ 2018-09-22 17:00 brady-wang 阅读(378) 评论(0) 推荐(0)
摘要: 获取文件的总数 阅读全文
posted @ 2018-09-22 10:53 brady-wang 阅读(284) 评论(0) 推荐(0)
摘要: scrapy shell https:///www.baidu.com 会启动爬虫请求网页 view(response) 会在浏览器打开请求到的临时文件 response.xpath("//*[@id="lh"]/a[2]/text()").extract() 使用xpath解析 阅读全文
posted @ 2018-09-22 10:52 brady-wang 阅读(548) 评论(0) 推荐(0)
摘要: # *_*coding:utf-8 *_* import requests def requests_view(response): request_url = response.url base_url = ' ' % (request_url) base_url = base_url.encode() content = response.content.... 阅读全文
posted @ 2018-09-21 16:48 brady-wang 阅读(320) 评论(0) 推荐(0)
摘要: 1、重点理解 response.text返回的类型是str response.content返回的类型是bytes,可以通过decode()方法将bytes类型转为str类型 推荐使用:response.content.decode()的方式获取相应的html页面 2、扩展理解 response.t 阅读全文
posted @ 2018-09-21 16:31 brady-wang 阅读(9014) 评论(0) 推荐(2)
上一页 1 ··· 127 128 129 130 131 132 133 134 135 ··· 198 下一页