随笔档案「2022年5月30日」：爬虫_scrapy_多管道爬取多页面数据 ... - 创客未来

2022年5月30日

摘要：本案例以爬取当当网的书名和图片，利用多个管道执行下载，一个管道执行写json文件，一个管道执行下载图片并保存本地 1.创建项目 scrapy startproject scrapy_dangdang 2.创建一个爬虫文件爬取地址：http://category.dangdang.com/cp01. 阅读全文

posted @ 2022-05-30 16:21 创客未来阅读(466) 评论(0) 推荐(0)

爬虫_scrapy shell

摘要：什么是scrapy shell ？ scrapy终端，是一个交互终端，供您在未启动spider的情况下尝试及调试您的爬取代码/其本意是用来测试提取数据的代码，不过您可以将其作为正常的python终端，在上面测试任何的python代码。该终端是用来测试xpath或css表达式，查看他们的工作方式及从阅读全文

posted @ 2022-05-30 13:28 创客未来阅读(47) 评论(0) 推荐(0)

爬虫_scrapy_项目结构目录和基本方法

摘要： 1.scrapy的项目结构 scrapy项目的结构项目名字项目名字 spiders文件夹（存储的是爬虫文件） init.py(默认文件) 自定义的爬虫文件（核心功能文件*） init items 定义数据结构的地方，爬取的数据都包含那些 middleware 中间件例如：代理 pipeline 阅读全文

posted @ 2022-05-30 11:14 创客未来阅读(354) 评论(0) 推荐(0)

创客未来

公告