代码改变世界

随笔档案-2011年10月

算法学习之栈

2011-10-10 20:16 by MichaelYin, 1005 阅读, 收藏,
摘要: 最近趁着找工作做了很多关于数据结构和算法的题,在这里也将涉及到栈的一些不错的知识点和题目以及代码贴出来,一方面是为了夯实基础,另外一方面方便大家更好的掌握数据结构中的栈 栈的特性其实一说对数据结构有稍微了解的人都知道,后进先出,但是在解决问题的过程中熟练的使用合适的数据结构我觉得才是对栈真正的理解 首先来讲一个很经典的问题,就是出栈顺序,题目是这样的,比如现在又1 2 3 4 5五个数字,规定... 阅读全文

Heritrix学习系列导航

2011-10-10 15:52 by MichaelYin, 365 阅读, 收藏,
摘要: 终于赶在去TX面试之前把这个系列拖着写完了,话说时间拖的也够久的了。没办法,一直都太忙了。。。各种事情,希望早点把工作搞定,以后会把Heritrix和Lucene整合专门在写几篇Post,呵呵~最后祝自己明天好运~ Heritrix之旅之CrawlController Heritrix之旅之Frontier Heritrix之旅之ToeThread Heritrix之旅之Processor 阅读全文

Heritrix之旅之Processor

2011-10-10 15:47 by MichaelYin, 363 阅读, 收藏,
摘要: 实际的url的处理是在toethread中进行的,toethread从Frontier中请求待处理的url,并将其放到一系列Processor中进行处理 可以以流水线上的处理流程来想象Processor,流水线上的产品就是url,由于处理的processor主要着重于不同的阶段和功能,所以,heritrix将其processor分成了五个大类。 1 Pre-fetch 这里面包含一些需要在像... 阅读全文

Heritrix之旅之ToeThread

2011-10-07 10:37 by MichaelYin, 413 阅读, 收藏,
摘要: Heritrix是一个多线程的程序,里面使用工作线程来处理url,这些工作线程称为torThreads,这些toethread统一的被ToePool所管理,Toepool通过setSize方法来管理运行的toethread数目 public void setSize(int newsize) { targetSize = newsize; int difference = newsize ... 阅读全文