代码改变世界

数据采集问题

2008-07-18 19:34  [蓝色理想]  阅读(1522)  评论(5)    收藏  举报
随着现在电子商务型的网站不断新生,信息数据量的逐渐庞大,因此各电子商务型网站对数据的采集和防采集也花费了相当的精力。
 到目前为止做数据采集也快半年了,对数据的采集和反采集也有一定的感受,写出来和大家一起分享下,希望大家有好的及不好的想法都来侃侃。

先来说说数据的防采集
1. 在一段时间内同一IP访问次数超过设定访问的最大次数,直接封IP
2. 同一IP访问达到极限次数出现验证码,输入验证码后还可以继续查询。
3. 指定网站的上次请求是否是指定的网站URL地址,是则返回结果信息,否则跳转到一个指定的错误页面。(该种方法我本人认为是一种比较好的防采集方法)
....

再来说说数据的采集
1. 更换Http头信息
2. 更换可用的代理IP地址及端口
...

目前对于数据采集和防采集益处多多, 害处也不少, 防采集吧对搜索引擎的收录有一定的影响,不防吧对网站的服务负荷过大,大家还是拿出一个比较折中的想法出来比较好。

先就写到这里, 下次有新的想法再和大家交流,文中有什么不妥的地方还望大家不吝赐教,同时也感谢你花掉你宝贵的时间看到最后一个字。

谢谢