AKmendo

  博客园  :: 首页  :: 新随笔  ::  :: 订阅 订阅  :: 管理

@爬虫数据来源:

1.一般性的符合w3c规范的网页;

2.API(最好使),返回xml或者json格式文件;

3.文件资源

4.媒体资源,就是体量比文件大

@pyspider

国人做的

web界面编写调试脚本,启停脚本,监控执行状态,查询活动历史,输出结果;

提供SaaS服务,可以在线提交部署;

支持MySQL、MongoDB、qslite;

原生支持抓取js的页面;

组件可替换,支持单机/分布式部署,支持docker部署;

具有强大的调度控制;

灵活可拓展,稳定可监控。

@

@

posted on 2018-12-04 16:56  Akmendo  阅读(140)  评论(0编辑  收藏  举报