随笔档案「2012年3月」 - eemaro

python学习笔记(re module && os)

摘要：分类： shells2011-08-18 11:16493人阅读评论(0)收藏举报字元功能說明\number代表除了換行字元以外的所有字元。\d代表字串位於開頭。\D代表字串位於結尾。\s代表空格字元，即r'[ \t\n\r\f\v]'。\S代表非空格字元，即r'[^ \t\n\r\f\v]'。\w代表英數字，即[0-9a-zA-Z]。\W代表\w定義以外的所有字元。reg中的sub比较高级，可以传方法，实际上经过1，外部的pattern match; 2, 传入方法； 3，方法内部的操作； 4，方法用return返回；这几步。经典的sub方法最后都是def 阅读全文

posted @ 2012-03-20 17:01 eemaro 阅读(369) 评论(0) 推荐(0)

使用 Python 模块 re 实现解析小工具

摘要：摘自: IBM developerWorks China 被阅读次数: 386由 yangyi 于 2011-04-17 21:52:16 提供概要在开发过程中发现，Python 模块 re（Regular Expression）是一个很有价值并且非常强大的文本解析工具，因而想要分享一下此模块的使用方法。有这样一个简单而有趣的实践范例：对于喜欢追看美剧的年轻人，最新一集美剧的播出时间常常是一个让人头疼的问题，一个实时更新美剧播出时间表的小工具会很受欢迎。本文通过以上这个实例，描述如何抓获 TV.com 网站上的文本信息，利用 Python 的 re 模块进行解析，并将热门美剧播出时间显示在自己阅读全文

posted @ 2012-03-20 16:57 eemaro 阅读(422) 评论(0) 推荐(0)

python中对文件、文件夹的操作

摘要：python中对文件、文件夹的操作需要涉及到os模块和shutil模块。创建文件：1) os.mknod("test.txt") 创建空文件2) open("test.txt",w) 直接打开一个文件，如果文件不存在则创建文件创建目录：os.mkdir("file") 创建目录复制文件：shutil.copyfile("oldfile","newfile") oldfile和newfile都只能是文件shutil.copy("oldfile","newfile&qu 阅读全文

posted @ 2012-03-19 21:05 eemaro 阅读(590) 评论(0) 推荐(0)

python抓取网页内容

摘要：#-------PYTHON获取网页内容-------------#import sys, urlliburl = "http://www.163.com" #网页地址wp = urllib.urlopen(url) #打开连接content = wp.read() #获取页面内容fp = open("d:\\python\\web.txt","w") #打开一个文本文件fp.write(content) #写入数据fp.close() #关闭文件阅读全文

posted @ 2012-03-19 20:05 eemaro 阅读(4845) 评论(1) 推荐(1)

利用Python抓取和解析网页

摘要：【IT168 技术专稿】对搜索引擎、文件索引、文档转换、数据检索、站点备份或迁移等应用程序来说，经常用到对网页(即HTML文件)的解析处理。事实上，通过Python语言提供的各种模块，我们无需借助Web服务器或者Web浏览器就能够解析和处理HTML文档。本文将详细介绍如何利用Python抓取和解析网页。首先，我们介绍一个可以帮助简化打开位于本地和Web上的HTML文档的Python模块，然后，我们论述如何使用Python模块来迅速解析在HTML文件中的数据，从而处理特定的内容，如链接、图像和Cookie等。最后，我们会给出一个规整HTML文件的格式标签的例子，通过这个例子您会发现使用pyt.. 阅读全文

posted @ 2012-03-19 19:19 eemaro 阅读(4774) 评论(0) 推荐(0)

Python网页抓取urllib,urllib2,httplib[1]

摘要：Python网页抓取urllib,urllib2,httplib[1]分类： Python笔记2012-03-17 16:0278人阅读评论(0)收藏举报前阶段使用到ftp，写了个工具脚本http://blog.csdn.net/wklken/article/details/7059423最近需要抓网页，看了下python抓取方式需求：抓取网页，解析获取内容涉及库：【重点urllib2】urllib http://docs.python.org/library/urllib.htmlurllib2 http://docs.python.org/library/urllib2.htmlhttpl 阅读全文

posted @ 2012-03-19 19:17 eemaro 阅读(6940) 评论(0) 推荐(2)

Python的HTML解析 mechanize

摘要：当您希望与 Web 页面中找到的内容进行某种比较复杂的交互时，您需要使用 mechanize库示例代码：import refrom mechanize import Browserbr = Browser()br.open("http://www.example.com/")# follow second link with element text matching regular expressionresponse1 = br.follow_link(text_regex=r"cheese\s*shop", nr=1)assert br.viewi 阅读全文

posted @ 2012-03-19 18:12 eemaro 阅读(412) 评论(0) 推荐(0)

eemaro

公告