eemaro

2012年3月19日

python中对文件、文件夹的操作

摘要: python中对文件、文件夹的操作需要涉及到os模块和shutil模块。创建文件:1) os.mknod("test.txt") 创建空文件2) open("test.txt",w) 直接打开一个文件,如果文件不存在则创建文件创建目录:os.mkdir("file") 创建目录复制文件:shutil.copyfile("oldfile","newfile") oldfile和newfile都只能是文件shutil.copy("oldfile","newfile&qu 阅读全文

posted @ 2012-03-19 21:05 eemaro 阅读(587) 评论(0) 推荐(0)
python抓取网页内容

摘要: #-------PYTHON获取网页内容-------------#import sys, urlliburl = "http://www.163.com" #网页地址wp = urllib.urlopen(url) #打开连接content = wp.read() #获取页面内容fp = open("d:\\python\\web.txt","w") #打开一个文本文件fp.write(content) #写入数据fp.close() #关闭文件 阅读全文

posted @ 2012-03-19 20:05 eemaro 阅读(4783) 评论(1) 推荐(1)
利用Python抓取和解析网页

摘要: 【IT168 技术专稿】对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理。事实上,通过Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文将详细介绍如何利用Python抓取和解析网页。首先,我们介绍一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块,然后,我们论述如何使用Python模块来迅速解析在HTML文件中的数据,从而处理特定的内容,如链接、图像和Cookie等。最后,我们会给出一个规整HTML文件的格式标签的例子,通过这个例子您会发现使用pyt.. 阅读全文

posted @ 2012-03-19 19:19 eemaro 阅读(4758) 评论(0) 推荐(0)
Python网页抓取urllib,urllib2,httplib[1]

摘要: Python网页抓取urllib,urllib2,httplib[1]分类: Python笔记2012-03-17 16:0278人阅读评论(0)收藏举报前阶段使用到ftp,写了个工具脚本http://blog.csdn.net/wklken/article/details/7059423最近需要抓网页,看了下python抓取方式需求:抓取网页,解析获取内容涉及库:【重点urllib2】urllib http://docs.python.org/library/urllib.htmlurllib2 http://docs.python.org/library/urllib2.htmlhttpl 阅读全文

posted @ 2012-03-19 19:17 eemaro 阅读(6932) 评论(0) 推荐(2)
Python的HTML解析 mechanize

摘要: 当您希望与 Web 页面中找到的内容进行某种比较复杂的交互时,您需要使用 mechanize库示例代码:import refrom mechanize import Browserbr = Browser()br.open("http://www.example.com/")# follow second link with element text matching regular expressionresponse1 = br.follow_link(text_regex=r"cheese\s*shop", nr=1)assert br.viewi 阅读全文

posted @ 2012-03-19 18:12 eemaro 阅读(407) 评论(0) 推荐(0)