随笔分类 -  java爬虫

摘要:技术选型 在后期项目跑通之后我们可以选用Zookeeper来实现监控功能。 部署方案 爬虫项目:堕胎服务器 网站爬虫分类URL定时项目:一台服务器 Hbase数据库:集群 Solr服务器:集群 Redis服务器:集群 爬虫监控项目:一台服务器 Web项目:多台服务器 Zookeeper服务器:集群 阅读全文
posted @ 2017-08-23 21:19 一寂知千秋 阅读(207) 评论(0) 推荐(0)
摘要:总体架构解析 数据流向 模块划分 各模块解读 总体架构解析: 数据流向 模块划分 数据采集模块解读 数据分析模块解读: 报表管理模块解读 系统管理与监控模块解读 阅读全文
posted @ 2017-08-21 22:29 一寂知千秋 阅读(150) 评论(0) 推荐(0)
摘要:难点分析 1.网站采取反爬策略 2.网站模板定期变动 3.网站url抓取失败 4.网站频繁抓取ip被封 1.网站采取反爬策略 》网站默认对方正常访问的方式是浏览器访问而不是代码访问,为了防止对方使用大规模服务器进行爬虫从而导致自身服务器承受过大的压力,通常网站会采取反爬策略 根据这一特性,我们用代码 阅读全文
posted @ 2017-08-21 22:26 一寂知千秋 阅读(2764) 评论(0) 推荐(0)