摘要: Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据。 如果安装了 IPython ,Scrapy终端将使用 IPython (替代标准Python终端)。 IPython 终端 阅读全文
posted @ 2018-10-25 18:18 发疯的man 阅读(687) 评论(0) 推荐(0)
摘要: 创建文件模板 CrawlSpiders就是为爬取整站孕育而生的,我们以前是分页下一页,然后再yied。这样太麻烦。CrawlSpiders是你只需要写好规则之后。他就会根据你这一页的response得到符合条件的url,然后再进去,再分析。 只需要增加两三行代码就可以替换我们以前的分页逻辑。 Lin 阅读全文
posted @ 2018-10-25 00:30 发疯的man 阅读(860) 评论(1) 推荐(0)