yyyyyyyyyyyyyyyyyyyy

博客园 首页 新随笔 联系 订阅 管理

2016年10月19日 #

摘要: Spider剩下的CountableThreadPool 在上一篇的Spider中我们一定注意到了threadpool这个变量,这个变量是Spider中的线程池,具体代码 public class CountableThreadPool { private int threadNum; privat 阅读全文
posted @ 2016-10-19 03:41 xxxxxxxx1x2xxxxxxx 阅读(708) 评论(0) 推荐(0)

摘要: 先看看文档对于Scheduler的作用介绍 https://code4craft.gitbooks.io/webmagic-in-action/content/zh/posts/ch1-overview/architecture.html 之前我们也介绍过了,Scheduler主要负责爬虫的下一步爬 阅读全文
posted @ 2016-10-19 03:41 xxxxxxxx1x2xxxxxxx 阅读(466) 评论(0) 推荐(0)

摘要: Pipeline & PageProcesser 这两部分是应该程序员自己实现的部分,因为PageProcesser关乎如何解析页面而Pipeline则是存储,推荐使用OOSpider也就是注解式编程。 Downloader public interface Downloader { /** * D 阅读全文
posted @ 2016-10-19 03:40 xxxxxxxx1x2xxxxxxx 阅读(193) 评论(0) 推荐(0)

摘要: 在class Spider中有run函数,调用了 processRequest(requestFinal)完成对页面的下载和处理。在这个函数里面先调用downloader.download(request, this);完成页面的下载, pageProcessor.process(page);完成对 阅读全文
posted @ 2016-10-19 03:36 xxxxxxxx1x2xxxxxxx 阅读(322) 评论(0) 推荐(0)

摘要: 面试中经常被问到HashMap与HashSet的区别。于是本渣静下心来总结了一下HashSet与HashMap的区别。 先了解一下HashMap跟HashSet HashSet: HashSet实现了Set接口,它不允许集合中出现重复元素。当我们提到HashSet时,第一件事就是在将对象存储在 Ha 阅读全文
posted @ 2016-10-19 03:32 xxxxxxxx1x2xxxxxxx 阅读(855) 评论(0) 推荐(0)