@爬虫数据来源:
1.一般性的符合w3c规范的网页;
2.API(最好使),返回xml或者json格式文件;
3.文件资源
4.媒体资源,就是体量比文件大
@pyspider
国人做的
web界面编写调试脚本,启停脚本,监控执行状态,查询活动历史,输出结果;
提供SaaS服务,可以在线提交部署;
支持MySQL、MongoDB、qslite;
原生支持抓取js的页面;
组件可替换,支持单机/分布式部署,支持docker部署;
具有强大的调度控制;
灵活可拓展,稳定可监控。
@
@