随笔分类 -  scrapy框架

摘要:##Item和Field ● Item基类 自定义数据类(如BookItem)的基类。 ● Field类 用来描述自定义数据类包含哪些字段(如name、price 等)。 接下来,我们改写第1章example项目中的代码,使用Item和 Field定义BookItem类,用其封装爬取到的书籍信息项目 阅读全文
posted @ 2021-03-09 19:00 shmily墨鱼 阅读(125) 评论(0) 推荐(0)
摘要:##Selector对象 Scrapy综合bs(beautifulSoup)和lxml两者优点实现了Selector类,它是基于lxml库构建的,并简化了API接口。在Scrapy中使用Selector对象提取页面中的数据,使用时先通过XPath或CSS选择器选中页面中要提取的数据,然后进行提取。 阅读全文
posted @ 2021-03-08 11:42 shmily墨鱼 阅读(395) 评论(0) 推荐(0)
摘要:###Scrapy框架流程图 Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。 Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引 阅读全文
posted @ 2021-03-05 16:37 shmily墨鱼 阅读(80) 评论(0) 推荐(0)
摘要:##初识Scrapy ###安装 pip install scrapy 这里以书中的列子走了,先大概了解下 ###创建项目 $ scrapy startproject example ###分析目标 打开页面http://books.toscrape.com,查看源码,观察书本名和价格的格式 可以看 阅读全文
posted @ 2021-03-05 11:07 shmily墨鱼 阅读(129) 评论(0) 推荐(0)