crawler_爬虫开发的曲线图

个人总结爬虫的学习曲线，可分为三个阶段，

一、

主要在填充基础知识，要熟悉http协议，学习正则表达式，首先基于jdk的基础包的网络功能，.net包下的 httpurlconnction

从细节上简单访问网络数据，进一步可以减去一些繁琐的封装功能（请求参数），使用httpClient (4.2.1)版本，处理的登录

页面解析可以借助regex ,jsoup ,htmlparser ,建议使用正则（要求较高），数据的锁向性准确，性能高。

二、

融入架构的思想，考虑爬取性能，爬取道德，站点处理能力，设计实现分布式爬虫，异步下载，负载均衡。

个人正在处在第二阶段

三、

经过阶段二，一般商用爬虫都能应对，若打算进一步提高，java的垃圾回收，内存释放，注定性能比不上c,

可根据个人兴趣，用c重写。

不尽之处，欢迎沟通与交流，共同进步。

爬虫技术交流_crawler QQ群：167047843

posted @ 2013-09-05 22:52 cphmvp 阅读(634) 评论(0) 收藏举报

刷新页面返回顶部

cphmvp