博客园  :: 首页  :: 管理

2007年6月1日

摘要: 用php写过一个,不过由于 php 不支持多线程,抓取和验证速度都非常的慢 (尽管libcurl可以实现多线程抓取,但他也只限于抓取网页这个功能,抓回来的数据进行再处理很麻烦). 于是决定用python重新写,python支持多线程啊。 已经有一年多没有用过 python了,很多语法,语言特性都快忘记得差不多了。 经过三天业余时间的 摸索,今天我写的这个程序终于可以和大家交流了。 程序现有功能: 1. 能自动从12个网站抓取代理列表,并保存到数据库里面 2. 自动验证每个代理是否可用,并保存验证时的响应时间做为判断代理速度的依据 3. 能分类输出代理信息, 已验证的,未验证的,高度匿名代理,普通匿名代理,透明代理到不同文件 4 支持的输出格式有 xml,htm,csv,txt,tab 每种文件都能自定义字段和格式 5. 扩展性比较强, 要添加一个新的抓取网站只需要改变一个全局变量,添加两个函数 (有详细接口说明) 6. 用 sq 阅读全文

posted @ 2007-06-01 14:17 Go_Rush 阅读(14091) 评论(19) 推荐(0) 编辑