06 2008 档案
转一篇写得很好很生动的经验总结
摘要:软件开发就好比是将一车货物(features)从A点运到B点, 在途中, 我们有时会卸下一些货物, 同时换上更有价值的货物, 或者重新包装已有的货物, 从而腾出更多的空闲空间来装载更多货物. 在行进过程中, 我们会遇到不同的路况, 不同的天气, 不同的麻烦, 车子会抛锚, 轮子会爆胎, 路面会有障碍, 有时为了过一条河, 我们甚至得立刻把车改造成潜水艇或者在上面架一座桥. 当最终到达B点时, 车上的货物和出发时比起来已经大不相同了, 但是我们的目的始终只有一个, 那就是能在这一趟运输过程中, 为B点及时运去他们最需要, 而且价值尽可能高的货物. 阅读全文
posted @ 2008-06-04 09:29 zeuslin 阅读(430) 评论(0) 推荐(0)
学习札记——伪静态技术(较完整篇)
摘要:而伪静态就是在这样背景下应运而生了,它在保留动态的优点的基础上,使得网址静态化,也就是让网址里不带问号,骗过收录的爬虫就行了。这样完美地糅合了前边两者的优点。 优点:静态的优点+动态的优点 不足:流量稍大一些使用伪静态就出现CPU使用超负荷,由于伪静态是用正则判断而不是真实地址,分辨到底显示哪个页面的责任也由直接指定转由CPU来判断了,所以CPU占有量的上升,确实是伪静态最大的弊病. 实现机制:是利用服务器端,对请求的动态页面做改动,让浏览器认为访问的也是静态页面,这个时候,浏览器地址栏中显示的就是静态地址信息(不带问号)了。 阅读全文
posted @ 2008-06-01 09:37 zeuslin 阅读(8540) 评论(7) 推荐(0)
学习札记——网页搜索基础知识
摘要:抓取:goolebot (robot,spider,bot)使用算法流程: 计算机程序会确定要抓取的网站、抓取频率以及从每个网站中获取的网页数量。 在抓取的过程中会生成一个网页网址列表,然后程序通过网址访问网站抓取信息,而在访问的过程中又会不断发现新的网址来丰富原有的网页网址列表。 编制索引:将抓取过来的信息分类存好。 提供:提供涉及排序问题,主要标准之一——重要性。重要性越大排在越前边。重要性是通过这个网页被其他网页链接的多少。 阅读全文
posted @ 2008-06-01 01:02 zeuslin 阅读(1944) 评论(1) 推荐(0)