数据采集问题

随着现在电子商务型的网站不断新生,信息数据量的逐渐庞大,因此各电子商务型网站对数据的采集和防采集也花费了相当的精力。
 到目前为止做数据采集也快半年了,对数据的采集和反采集也有一定的感受,写出来和大家一起分享下,希望大家有好的及不好的想法都来侃侃。

先来说说数据的防采集
1. 在一段时间内同一IP访问次数超过设定访问的最大次数,直接封IP
2. 同一IP访问达到极限次数出现验证码,输入验证码后还可以继续查询。
3. 指定网站的上次请求是否是指定的网站URL地址,是则返回结果信息,否则跳转到一个指定的错误页面。(该种方法我本人认为是一种比较好的防采集方法)
....

再来说说数据的采集
1. 更换Http头信息
2. 更换可用的代理IP地址及端口
...

目前对于数据采集和防采集益处多多, 害处也不少, 防采集吧对搜索引擎的收录有一定的影响,不防吧对网站的服务负荷过大,大家还是拿出一个比较折中的想法出来比较好。

先就写到这里, 下次有新的想法再和大家交流,文中有什么不妥的地方还望大家不吝赐教,同时也感谢你花掉你宝贵的时间看到最后一个字。

谢谢


posted @ 2008-07-18 19:34 陈光喜 阅读(1012) 评论(5)  编辑 收藏 所属分类: .NET

  回复  引用  查看    
#1楼 2008-07-18 21:22 | aspnetx      
防采集吧对搜索引擎的收录有一定的影响
--------------
搜索引擎的爬虫ip应该是可以获得的吧,对这些ip单独开个绿色通道呢?
  回复  引用  查看    
#2楼 2008-07-18 23:30 | 大李      
学习啦,网络高手
  回复  引用    
#3楼 2008-07-19 06:21 | 让她瑟 [未注册用户]
说得好听是采集,说得不好听是偷窃。
  回复  引用    
#4楼 2008-07-19 07:58 | 柳永法 [未注册用户]
呵呵,
小偷程序
采集技术
数据获取技术

数据智能获取技术


  回复  引用  查看    
#5楼 2008-07-19 08:26 | PerfectDesign      
哈哈,一个好办法就是伪装成搜索引擎,哈哈

标题  
姓名  
主页
Email (只有博主才能看到) 
验证码 *  看不清,换一张 [登录][注册]
内容(请不要发表任何与政治相关的内容)  
  登录  使用高级评论  新用户注册  返回页首  恢复上次提交      


相关链接: