eemaro

03 2012 档案

python学习笔记(re module && os)
摘要:分类: shells2011-08-18 11:16493人阅读评论(0)收藏举报字元功能說明\number代表除了換行字元以外的所有字元。\d代表字串位於開頭。\D代表字串位於結尾。\s代表空格字元,即r'[ \t\n\r\f\v]'。\S代表非空格字元,即r'[^ \t\n\r\f\v]'。\w代表英數字,即[0-9a-zA-Z]。\W代表\w定義以外的所有字元。reg中的sub比较高级,可以传方法,实际上经过1,外部的pattern match; 2, 传入方法; 3, 方法内部的操作; 4, 方法用return返回;这几步。经典的sub方法最后都是def 阅读全文

posted @ 2012-03-20 17:01 eemaro 阅读(369) 评论(0) 推荐(0)

使用 Python 模块 re 实现解析小工具
摘要:摘自: IBM developerWorks China 被阅读次数: 386由 yangyi 于 2011-04-17 21:52:16 提供概要在开发过程中发现,Python 模块 re(Regular Expression)是一个很有价值并且非常强大的文本解析工具,因而想要分享一下此模块的使用方法。有这样一个简单而有趣的实践范例:对于喜欢追看美剧的年轻人,最新一集美剧的播出时间常常是一个让人头疼的问题,一个实时更新美剧播出时间表的小工具会很受欢迎。本文通过以上这个实例,描述如何抓获 TV.com 网站上的文本信息,利用 Python 的 re 模块进行解析,并将热门美剧播出时间显示在自己 阅读全文

posted @ 2012-03-20 16:57 eemaro 阅读(422) 评论(0) 推荐(0)

python中对文件、文件夹的操作
摘要:python中对文件、文件夹的操作需要涉及到os模块和shutil模块。创建文件:1) os.mknod("test.txt") 创建空文件2) open("test.txt",w) 直接打开一个文件,如果文件不存在则创建文件创建目录:os.mkdir("file") 创建目录复制文件:shutil.copyfile("oldfile","newfile") oldfile和newfile都只能是文件shutil.copy("oldfile","newfile&qu 阅读全文

posted @ 2012-03-19 21:05 eemaro 阅读(590) 评论(0) 推荐(0)

python抓取网页内容
摘要:#-------PYTHON获取网页内容-------------#import sys, urlliburl = "http://www.163.com" #网页地址wp = urllib.urlopen(url) #打开连接content = wp.read() #获取页面内容fp = open("d:\\python\\web.txt","w") #打开一个文本文件fp.write(content) #写入数据fp.close() #关闭文件 阅读全文

posted @ 2012-03-19 20:05 eemaro 阅读(4845) 评论(1) 推荐(1)

利用Python抓取和解析网页
摘要:【IT168 技术专稿】对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说,经常用到对网页(即HTML文件)的解析处理。事实上,通过Python语言提供的各种模块,我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文将详细介绍如何利用Python抓取和解析网页。首先,我们介绍一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块,然后,我们论述如何使用Python模块来迅速解析在HTML文件中的数据,从而处理特定的内容,如链接、图像和Cookie等。最后,我们会给出一个规整HTML文件的格式标签的例子,通过这个例子您会发现使用pyt.. 阅读全文

posted @ 2012-03-19 19:19 eemaro 阅读(4774) 评论(0) 推荐(0)

Python网页抓取urllib,urllib2,httplib[1]
摘要:Python网页抓取urllib,urllib2,httplib[1]分类: Python笔记2012-03-17 16:0278人阅读评论(0)收藏举报前阶段使用到ftp,写了个工具脚本http://blog.csdn.net/wklken/article/details/7059423最近需要抓网页,看了下python抓取方式需求:抓取网页,解析获取内容涉及库:【重点urllib2】urllib http://docs.python.org/library/urllib.htmlurllib2 http://docs.python.org/library/urllib2.htmlhttpl 阅读全文

posted @ 2012-03-19 19:17 eemaro 阅读(6940) 评论(0) 推荐(2)

Python的HTML解析 mechanize
摘要:当您希望与 Web 页面中找到的内容进行某种比较复杂的交互时,您需要使用 mechanize库示例代码:import refrom mechanize import Browserbr = Browser()br.open("http://www.example.com/")# follow second link with element text matching regular expressionresponse1 = br.follow_link(text_regex=r"cheese\s*shop", nr=1)assert br.viewi 阅读全文

posted @ 2012-03-19 18:12 eemaro 阅读(412) 评论(0) 推荐(0)