2020 年 9月 18 日随笔档案 - straightup

2020年9月18日

摘要： scrapy下载图片爬虫类中,将img_src作为item的属性yield即可关键实现点在管道类里导入一个图片的管道类 from scrapy.pipelines.images import ImagesPipeline 发请求 import scrapy 重写图片管道类的三个父类方法 get 阅读全文

posted @ 2020-09-18 20:49 straightup 阅读(190) 评论(0) 推荐(0)

Scrapy爬虫框架使用Ⅱ

摘要：基于Spider父类进行全站数据的爬取全站数据的爬取:将所有页码对应的页面数据进行爬取手动请求的发送(get): yield scrapy.Request(url,callback) 对yield的总结: 向管道提交item对象 yield item 手动请求发送 yield scrapy.Re 阅读全文

posted @ 2020-09-18 20:47 straightup 阅读(114) 评论(0) 推荐(0)

Scrapy爬虫框架使用Ⅰ

摘要：什么是爬虫框架? 就是具有很强通用性且集成了很多功能的爬虫项目模板 Scrapy集成好的功能: 高性能的数据解析操作(xpath) 高性能的数据下载功能(异步) 高性能的数据持久化存储(管道) ** 中间件机制(拦截请求和响应) 全站数据爬取操作将一个网站所有页面的数据进行爬取分布式(搭建集群) 阅读全文

posted @ 2020-09-18 20:41 straightup 阅读(110) 评论(0) 推荐(0)

selenium的基本使用

摘要： selenium模块实现浏览器自动化搜索京东商品并获取页面源码 from selenium import webdriver from time import sleep # 先实例化一个浏览器对象,并传入驱动程序 bro = webdriver.Chrome(executable_path='ch 阅读全文

posted @ 2020-09-18 20:36 straightup 阅读(127) 评论(0) 推荐(0)

straightup

一山还有一山高

公告