摘要:
日志等级 日志信息: 使用命令:scrapy crawl 爬虫文件 运行程序时,在终端输出的就是日志信息; 日志信息的种类: ERROR:一般错误; WARNING:警告; INFO:一般的信息; DEBUG: 调试信息; 设置日志信息指定输出: 在settings配置文件中添加: LOG_LEVE 阅读全文
摘要:
POST请求发送 重写爬虫应用文件中继承Spider类的 类的里面的start_requests(self)这个方法 递归爬取 - 递归爬取解析多页页面数据 - 需求:将糗事百科所有页码的作者和段子内容数据进行爬取且持久化存储 - 需求分析:每一个页面对应一个url,则scrapy工程需要对每一个页 阅读全文