2020年12月7日
摘要: 遇到问题的主要方法就是开日志看打印和分析源代码。 1.如何找到pyspider的安装目录? >>> import os >>> print os.sys.path ['', '/usr/lib64/python27.zip', '/usr/lib64/python2.7', '/usr/lib64/ 阅读全文
posted @ 2020-12-07 15:23 步孤天 阅读(647) 评论(0) 推荐(1) 编辑
摘要: pyspider的主要架构如下图 1. webui 在线编写、调试爬虫脚本; 在线监控任务执行情况; 2. scheduler 调度任务,粗浅的理解就是定时执行爬虫脚本; 这是一个核心部件;不止是定时爬取那么简单。 爬取的时候要递归爬取网页, 爬取网页的时候要设置优先级,优先爬取列表页。 爬虫任务爬 阅读全文
posted @ 2020-12-07 15:20 步孤天 阅读(309) 评论(0) 推荐(0) 编辑
摘要: pyspider用起来比较简单,还带UI,作为一个存在这么久的系统,其爬虫的框架和设计思路,能让小白们学到很多东西。 对于不常使用爬虫的人来说,整理和复用代码很麻烦。不如用pyspider省事。 pyspider的官方文档地址:http://docs.pyspider.org/en/latest/ 阅读全文
posted @ 2020-12-07 11:17 步孤天 阅读(636) 评论(0) 推荐(0) 编辑