摘要: 而伪静态就是在这样背景下应运而生了,它在保留动态的优点的基础上,使得网址静态化,也就是让网址里不带问号,骗过收录的爬虫就行了。这样完美地糅合了前边两者的优点。 优点:静态的优点+动态的优点 不足:流量稍大一些使用伪静态就出现CPU使用超负荷,由于伪静态是用正则判断而不是真实地址,分辨到底显示哪个页面的责任也由直接指定转由CPU来判断了,所以CPU占有量的上升,确实是伪静态最大的弊病. 实现机制:是利用服务器端,对请求的动态页面做改动,让浏览器认为访问的也是静态页面,这个时候,浏览器地址栏中显示的就是静态地址信息(不带问号)了。 阅读全文
posted @ 2008-06-01 09:37 zeuslin 阅读(8514) 评论(7) 推荐(0) 编辑
摘要: 抓取:goolebot (robot,spider,bot)使用算法流程: 计算机程序会确定要抓取的网站、抓取频率以及从每个网站中获取的网页数量。 在抓取的过程中会生成一个网页网址列表,然后程序通过网址访问网站抓取信息,而在访问的过程中又会不断发现新的网址来丰富原有的网页网址列表。 编制索引:将抓取过来的信息分类存好。 提供:提供涉及排序问题,主要标准之一——重要性。重要性越大排在越前边。重要性是通过这个网页被其他网页链接的多少。 阅读全文
posted @ 2008-06-01 01:02 zeuslin 阅读(1915) 评论(1) 推荐(0) 编辑