brady-wang - 博客园

2018年9月25日

摘要： scrapy下使用item才是正经方法。在item中定义需要保存的内容，然后在pipeline处理item，爬虫流程就成了这样：抓取 --> 按item规则收集需要数据 -->使用pipeline处理（存储等）定义item,在items.py中定义抓取内容我们将数据库的配置信息保存在setti 阅读全文

posted @ 2018-09-25 14:47 brady-wang 阅读(609) 评论(0) 推荐(0)

scrapy-yield scrapy.Request()不执行、失效、Filtered offsite request to错误 [转]

摘要： scrapy错误：yield scrapy.Request()不执行、失效、Filtered offsite request to错误。首先我们在Request（）方法里面添加这么一个东东：yield Request(url, callback=self.parse_item, dont_filte 阅读全文

posted @ 2018-09-25 14:14 brady-wang 阅读(2488) 评论(0) 推荐(0)

scrapy-scrapy如何打开页面？[转]

摘要：一、首先我们来看scrapy spider如何打开页面：要打开页面，我们用的是手，同样scrapy也有一个得力助手：spider；至于spider如何打开页面，且听我娓娓道来，如果一上来就噼里啪啦的给诸位说scrapy spiders需要继承神马类、神马方法、神马常量，我想很多喷油都会觉得莫名其妙，阅读全文

posted @ 2018-09-25 14:08 brady-wang 阅读(989) 评论(0) 推荐(0)

2018年9月24日

爬虫学习之-文件管道重写

摘要：如果要文件管道保存为原有的文件名需要重写文件管道的方法 pipeitem文件 setting配置 spider文件 item文件阅读全文

posted @ 2018-09-24 14:18 brady-wang 阅读(736) 评论(0) 推荐(0)

爬虫学习之-管道说明

摘要：图片管道启用： item中必须包含image_urls和images属性 image_urls中必须是列表，每个元素是一个带有http的链接 images里面数据任意，经过图片管道后会被重新赋值图片管道必须被启用配置文件中的选项： ITEM_PIPELINES = { 'scrapy.pipelines.images.ImagesPipeline':2, # 'images.pipeline... 阅读全文

posted @ 2018-09-24 11:27 brady-wang 阅读(489) 评论(0) 推荐(0)

2018年9月22日

爬虫学习之-糗百

摘要： # *_*coding:utf-8 *_* import urllib.request from lxml import etree import requests def requests_view(response): request_url = response.url base_url = ' ' % (request_url) base_url = ba... 阅读全文

posted @ 2018-09-22 17:00 brady-wang 阅读(378) 评论(0) 推荐(0)

爬虫学习之-返回合法文件名

摘要：获取文件的总数阅读全文

posted @ 2018-09-22 10:53 brady-wang 阅读(284) 评论(0) 推荐(0)

爬虫学习之-scrapy交互式命令 scrapy查看页面

摘要： scrapy shell https:///www.baidu.com 会启动爬虫请求网页 view(response) 会在浏览器打开请求到的临时文件 response.xpath("//*[@id="lh"]/a[2]/text()").extract() 使用xpath解析阅读全文

posted @ 2018-09-22 10:52 brady-wang 阅读(548) 评论(0) 推荐(0)

2018年9月21日

爬虫学习之-可视化函数

摘要： # *_*coding:utf-8 *_* import requests def requests_view(response): request_url = response.url base_url = ' ' % (request_url) base_url = base_url.encode() content = response.content.... 阅读全文

posted @ 2018-09-21 16:48 brady-wang 阅读(320) 评论(0) 推荐(0)

python response.text和response.content的区别

摘要： 1、重点理解 response.text返回的类型是str response.content返回的类型是bytes，可以通过decode()方法将bytes类型转为str类型推荐使用：response.content.decode()的方式获取相应的html页面 2、扩展理解 response.t 阅读全文

posted @ 2018-09-21 16:31 brady-wang 阅读(9014) 评论(0) 推荐(2)

风行天下

天地不仁以万物为刍狗

公告

风行天下

天地不仁 以万物为刍狗

公告

天地不仁以万物为刍狗