上一页 1 ··· 11 12 13 14 15 16 17 18 19 ··· 52 下一页
摘要: import json import scrapy class TestpostSpider(scrapy.Spider): name = 'testpost' allowed_domains = ['fanyi.baidu.com'] # post请求如果没有参数那么这个请求将没有任何意义 # 所 阅读全文
posted @ 2022-05-31 15:52 创客未来 阅读(55) 评论(0) 推荐(0)
摘要: (1)日志级别 CRITICAL:严重错误 ERROR:一般错误 WARNING:警告 INFO:一般信息 DEBUG:调试信息 默认的日志等级是DEBUG 只要出现了DEBUG或者DEBUG以上等级的日志 那么这些日志将会打印 (2)settings.py文件设置 默认的级别为DEBUG,会显示上 阅读全文
posted @ 2022-05-31 15:38 创客未来 阅读(179) 评论(0) 推荐(0)
摘要: 本案是将爬取得到的数据插入到Mysql数据库中持久化保存。 1.创建持久化数据库 创建数据库spider01,并创建一个book数据表 /* Navicat Premium Data Transfer Source Server : localhost(HRBJYKJ-Battery) Source 阅读全文
posted @ 2022-05-31 14:52 创客未来 阅读(215) 评论(0) 推荐(0)
摘要: CrawlSpider (1)继承自scrapy.Spider (2)独门秘籍 CrawlSpider可以定义规则,再解析html内容的时候,可以根据连接规则提取出指定的链接,然后再向这些链接发送请求。 所以,如果有需要跟进链接的需求,意思就是爬取了网页之后,需要提取链接再次爬取,使用CrawlSp 阅读全文
posted @ 2022-05-31 13:13 创客未来 阅读(35) 评论(0) 推荐(0)
摘要: 本案例以爬取电影天堂第一级页面的电影名称和点击链接后二级页面的img地址,并将第一级的名称和第二级页面的图片地址一起写入json文件,涉及到多级页面数据的组合。 创建项目和页面命令这里就不说了,可以参考我之前的文章,这里主要说明核心代码。 1.spiders下的mv.py代码 import scra 阅读全文
posted @ 2022-05-31 09:20 创客未来 阅读(1077) 评论(0) 推荐(0)
摘要: 本案例以爬取当当网的书名和图片,利用多个管道执行下载,一个管道执行写json文件,一个管道执行下载图片并保存本地 1.创建项目 scrapy startproject scrapy_dangdang 2.创建一个爬虫文件 爬取地址:http://category.dangdang.com/cp01. 阅读全文
posted @ 2022-05-30 16:21 创客未来 阅读(456) 评论(0) 推荐(0)
摘要: 什么是scrapy shell ? scrapy终端,是一个交互终端,供您在未启动spider的情况下尝试及调试您的爬取代码/其本意是用来测试提取数据的代码,不过您可以将其作为正常的python终端,在上面测试任何的python代码。 该终端是用来测试xpath或css表达式,查看他们的工作方式及从 阅读全文
posted @ 2022-05-30 13:28 创客未来 阅读(41) 评论(0) 推荐(0)
摘要: 1.scrapy的项目结构 scrapy项目的结构 项目名字 项目名字 spiders文件夹(存储的是爬虫文件) init.py(默认文件) 自定义的爬虫文件(核心功能文件*) init items 定义数据结构的地方,爬取的数据都包含那些 middleware 中间件 例如:代理 pipeline 阅读全文
posted @ 2022-05-30 11:14 创客未来 阅读(331) 评论(0) 推荐(0)
摘要: 1.scrapy是什么? Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 2.安装scrapy pip install scrapy -i https://pypi.douban.com/simple 常见报错及解 阅读全文
posted @ 2022-05-27 16:34 创客未来 阅读(76) 评论(0) 推荐(0)
摘要: #通过登录然后进入到主页面 # 通过找登录接口我们发现登录的时候需要的参数很多 # __VIEWSTATE: Q9zeukk7PE5h9KCMT1uBtHMfNp6+Kfkwk5KywR928SJ/NJwdBGx04xq662yh/fA3/UuhXe7hlF0C19KQ3PHIFzj37k4o/UH 阅读全文
posted @ 2022-05-27 15:52 创客未来 阅读(218) 评论(0) 推荐(0)
上一页 1 ··· 11 12 13 14 15 16 17 18 19 ··· 52 下一页