搜索引擎:在web上搜索和发现信息,对信息进行处理和组织后,为用户提供web信息的发现服务。对大量用户并发的查询响应也是必须关注的问题。搜索系统是指:在用户提交搜索之前,也搜集了一些网页,以某种方式存在系统中,搜索是指在系统内部完成的。由于抓取在事先完成,提交给用户后,不能保证是正确,甚至可能是不存在的网页。所以,现在搜索引擎都保存搜集过程中得到的网页全文,提供“网页快照”和“历史网页”的链接,保证提供的网页和摘要的一致性。搜集网页的过程是利用html的关联性,从一个网页链接到另一个网页,把这些网页抓到本地进行分析。Robot,spider,也称为网页搜集子系统。Google的成功最初是因为独 Read More
posted @ 2012-11-11 13:30
孙铭泽
Views(230)
Comments(0)
Diggs(0)

浙公网安备 33010602011771号