摘要:
上一篇Blog中说到了抓取任务的核心类CrawlController,这次我们来说说Frontier.Frontier是每次抓取时必须要用到的组件,每个Frontier知道哪个URI它正在处理,ToeThreads向Frontier请求URI,然后通过处理链对其进行处理,并将发现的连接通过scheduled返回到Frontier中,Frontier本身管理一个关于uri的列表,这个列表中的uri将... 阅读全文
随笔档案-2011年08月
Heritrix之旅之CrawlController
2011-08-25 18:23 by MichaelYin, 557 阅读, 收藏,
摘要:
一转眼暑假就快要结束了,暑假也是在趁着找工作之前花时间折研究了一下Heritrix,这段时间会花点时间把这块学习和心得来做一个总结,一方面对知识的夯实,另一方面也能对园子里面的朋友有所帮助。 Heritrix的一些介绍网上都有,我在这里也就不做介绍了,直接进入正题。 Heritrix抓取任务的核心类就是CrawlController,这个对象将决定一个抓取任务的开始和结束 //order.x... 阅读全文
编程之美2.18学习笔记
2011-08-14 11:45 by MichaelYin, 549 阅读, 收藏,
摘要:
解题过程中没有使用书上提供的动态规划的算法,在这里把解题思路写一下。 题目是这样的,有个包含2n个元素的无序数组,现在用算法将这个数组进行分割,使得两个子数组的和最相近 我们首先来想像将数组分割后的情况,假设分割后的两个数组分别为A和B,A[0]和B[0]之间肯定是存在一个差值的,假设我们用A[0]-B[0],得到的值加上A[1]-B[1],这样最后得到的值的绝对值肯定是所有情况里面最小的,因为最... 阅读全文
浙公网安备 33010602011771号