12 2008 档案

摘要: 在做蜘蛛采集的时侯从一个起始地址开始能得到一大堆的URL对于内容的页面需要进行内容抽取对于URL列表的页面需要解析出内容页面URL很显然,对于不同的页面需要进行不同的操作。但是问题是,如何判断一个URL到底是内容页面还是列表页面。一个很简单的方法是:抽取页面内的所有URL,判断URL的相似度。当然通过判断页面内是否存在大块的文本也能大概知道这个页面是否内容页面。这里要提一下的是URL相似度的判断。...阅读全文
posted @ 2008-12-16 13:55 T.t.T!Ck.¢# 阅读(858) | 评论 (9) 编辑