﻿<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>博客园-Go_Rush(阿舜)的博客,专注于Ajax,JavaScript-随笔分类-python</title><link>http://www.cnblogs.com/ashun/category/95411.html</link><description /><language>zh-cn</language><lastBuildDate>Sat, 17 May 2008 16:39:39 GMT</lastBuildDate><pubDate>Sat, 17 May 2008 16:39:39 GMT</pubDate><ttl>60</ttl><item><title>发一个python写的多线程 代理服务器 抓取,保存,验证程序，希望喜欢python的朋友和我一起完善它</title><link>http://www.cnblogs.com/ashun/archive/2007/06/01/python_proxy_checker.html</link><dc:creator>Go_Rush</dc:creator><author>Go_Rush</author><pubDate>Fri, 01 Jun 2007 06:17:00 GMT</pubDate><guid>http://www.cnblogs.com/ashun/archive/2007/06/01/python_proxy_checker.html</guid><wfw:comment>http://www.cnblogs.com/ashun/comments/767675.html</wfw:comment><comments>http://www.cnblogs.com/ashun/archive/2007/06/01/python_proxy_checker.html#Feedback</comments><slash:comments>17</slash:comments><wfw:commentRss>http://www.cnblogs.com/ashun/comments/commentRss/767675.html</wfw:commentRss><trackback:ping>http://www.cnblogs.com/ashun/services/trackbacks/767675.html</trackback:ping><description><![CDATA[&nbsp;&nbsp;&nbsp;&nbsp; 摘要: 用php写过一个，不过由于 php 不支持多线程，抓取和验证速度都非常的慢<br>(尽管libcurl可以实现多线程抓取,但他也只限于抓取网页这个功能，抓回来的数据进行再处理很麻烦).<br><br>于是决定用python重新写,python支持多线程啊。<br>已经有一年多没有用过 python了，很多语法，语言特性都快忘记得差不多了。 经过三天业余时间的<br>摸索，今天我写的这个程序终于可以和大家交流了。<br><br>程序现有功能:<br>   1. 能自动从12个网站抓取代理列表，并保存到数据库里面<br>   2. 自动验证每个代理是否可用,并保存验证时的响应时间做为判断代理速度的依据<br>   3.  能分类输出代理信息， 已验证的，未验证的，高度匿名代理，普通匿名代理，透明代理到不同文件<br>   4   支持的输出格式有 xml,htm,csv,txt,tab   每种文件都能自定义字段和格式<br>   5.  扩展性比较强, 要添加一个新的抓取网站只需要改变一个全局变量，添加两个函数 (有详细接口说明)<br>   6.   用 sq&nbsp;&nbsp;<a href='http://www.cnblogs.com/ashun/archive/2007/06/01/python_proxy_checker.html'>阅读全文</a><img src ="http://www.cnblogs.com/ashun/aggbug/767675.html?type=1" width = "1" height = "1" /><br><br><div align=right><a style="text-decoration:none;" href="http://ashun.cnblogs.com/" target="_blank">Go_Rush</a> 2007-06-01 14:17 <a href="http://www.cnblogs.com/ashun/archive/2007/06/01/python_proxy_checker.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item></channel></rss>