随笔档案「2012年3月19日」：python中对文件、文件夹的操作 ... - eemaro

python中对文件、文件夹的操作

摘要： python中对文件、文件夹的操作需要涉及到os模块和shutil模块。创建文件：1) os.mknod("test.txt") 创建空文件2) open("test.txt",w) 直接打开一个文件，如果文件不存在则创建文件创建目录：os.mkdir("file") 创建目录复制文件：shutil.copyfile("oldfile","newfile") oldfile和newfile都只能是文件shutil.copy("oldfile","newfile&qu 阅读全文

posted @ 2012-03-19 21:05 eemaro 阅读(589) 评论(0) 推荐(0)

python抓取网页内容

摘要： #-------PYTHON获取网页内容-------------#import sys, urlliburl = "http://www.163.com" #网页地址wp = urllib.urlopen(url) #打开连接content = wp.read() #获取页面内容fp = open("d:\\python\\web.txt","w") #打开一个文本文件fp.write(content) #写入数据fp.close() #关闭文件阅读全文

posted @ 2012-03-19 20:05 eemaro 阅读(4792) 评论(1) 推荐(1)

利用Python抓取和解析网页

摘要：【IT168 技术专稿】对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说，经常用到对网页(即HTML文件)的解析处理。事实上，通过Python语言提供的各种模块，我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文将详细介绍如何利用Python抓取和解析网页。首先，我们介绍一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块，然后，我们论述如何使用Python模块来迅速解析在HTML文件中的数据，从而处理特定的内容，如链接、图像和Cookie等。最后，我们会给出一个规整HTML文件的格式标签的例子，通过这个例子您会发现使用pyt.. 阅读全文

posted @ 2012-03-19 19:19 eemaro 阅读(4761) 评论(0) 推荐(0)

Python网页抓取urllib,urllib2,httplib[1]

摘要： Python网页抓取urllib,urllib2,httplib[1]分类： Python笔记2012-03-17 16:0278人阅读评论(0)收藏举报前阶段使用到ftp，写了个工具脚本http://blog.csdn.net/wklken/article/details/7059423最近需要抓网页，看了下python抓取方式需求：抓取网页，解析获取内容涉及库：【重点urllib2】urllib http://docs.python.org/library/urllib.htmlurllib2 http://docs.python.org/library/urllib2.htmlhttpl 阅读全文

posted @ 2012-03-19 19:17 eemaro 阅读(6936) 评论(0) 推荐(2)

Python的HTML解析 mechanize

摘要：当您希望与 Web 页面中找到的内容进行某种比较复杂的交互时，您需要使用 mechanize库示例代码：import refrom mechanize import Browserbr = Browser()br.open("http://www.example.com/")# follow second link with element text matching regular expressionresponse1 = br.follow_link(text_regex=r"cheese\s*shop", nr=1)assert br.viewi 阅读全文

posted @ 2012-03-19 18:12 eemaro 阅读(408) 评论(0) 推荐(0)

eemaro

公告

python中对文件、文件夹的操作

python抓取网页内容

利用Python抓取和解析网页

Python网页抓取urllib,urllib2,httplib[1]

Python的HTML解析 mechanize