Mingz技术博客

...

导航

2013年7月13日 #

python 爬虫程序详解

摘要: #!/usr/bin/python 使用魔法字符调用python23 from sys import argv 导入sys是导入python解释器和他环境相关的参数4 from os import makedirs,unlink,sepos主要提供对系统路径,文件重命名和删除文件所需的函数makedirs是创建递归文件夹的函数。比如说我们要创建一个新的目录,/python/HTML/crawl,但是目前这三个文件夹都不存在,如果使用mkdir命令的话需要使用三次才能完成,但是使用os.makedir只需使用一次就可以创建好整个目录。os.makedirs(os.path.join(os.erv 阅读全文

posted @ 2013-07-13 23:02 Mingz2013 阅读(302) 评论(0) 推荐(0)

Python写的简易采集爬虫(蜘蛛)

摘要: #!/usr/bin/python#-*-coding:utf-8-*-# 简易采集爬虫# 1.采集Yahoo!Answers,parseData函数修改一下,可以采集任何网站# 2.需要sqlite3或者pysqlite支持# 3.可以在DreamHost.com空间上面运行# 4.可以修改User-Agent冒充搜索引擎蜘蛛# 5.可以设置暂停的时间,控制采集速度# 6.采集Yahoo会被封IP数小时,所以这个采集用处不大# Author: Lukin# Date : 2008-09-25# 导入采集需要用到的模块import re, sys, timeimport httplib, os 阅读全文

posted @ 2013-07-13 23:00 Mingz2013 阅读(424) 评论(0) 推荐(0)