proxy ip 收集方式总结

网上很多介绍获取代理的方式,首先从 豆瓣的一个网页(一分钟解决“仅限中国大陆地区播放”)上看到的方式

A. http://freeproxylist.org; 下载得到的txt文件中,很多本地测试并不能用,或许失效,或许是GFW导致,网站的下载功能chrome浏览器不能成功; 

B.http://www.cooleasy.com; 界面清新,并且提供的功能方便易用,试验之后,发现area为china ,united states的代理成功的可能性,速度也令人满意更好;

C.http://tools.rosinstrument.com 此网站上搜集的代理比较多样,含有域名,试验之后发现不可用,因此忽略

免费代理列表的搜索中,最后发现, 国内的网站http://www.cnproxy.comhttp://www.freeproxylists.net (需要专门的提取程序来获取),提供了大量可供使用的ip地址(这两个还没有采集下来); 另外鲲鹏数据收集服务器列表: http://www.site-digger.com/html/articles/20110516/proxieslist.html , 教育网出国免费代理http://proxy.ipcn.org/proxylist2.html  搜ip:http://www.sooip.com 有些可以直接使用提供的列表来做,免去extractor的麻烦;

本来预计的收集可用proxy 的提取,要自己书写代码来实现,发现 http://proxy-list.org/en/proxy-extractor.php 或 者http://freeproxylist.org/en/proxy-and-socks-extractor.htm可以直接提取,并且速度还可以;

除了代理网页的提取之外,自动的采集代理服务器ip的软件也非常值得使用,代理猎手,6点代理,亚伟代理,   网络神采, Powercap都是不错的选择;

之后对收集到txt中的proxy server进行测试,访问weibo首页超时达到10秒左右的都直接忽略,先不使用,测试的页面也就是已知微博用户的首页(因为weibo页面登录,虽然访问ip一直变幻,但是可能造成帐号被封,先使用页面内容比较多的网页进行测试,效果相同);测试使用的代码也是python 格式,在出现异常时返回结果异常, 如此找到 给定数量的网页; 最后的结果是国外代理推荐列表cooleasy大概10%的可用,国内的则有60%的可用;

 

http://www.veryhuo.com/res/ip/

posted on 2012-08-20 16:31  兵者  阅读(1253)  评论(0编辑  收藏  举报

导航