python之re模块举例讨论

1、在文件websites.txt中的内容如下：

http://www.cnblogs.com/bfchuan/p/3309748.html
http://www.cnblogs.com/
http://mail.qq.com/cgi-bin
http://sports.sina.com.cn/nba/
http://www.cnblogs.com/tangkaixin/
http://my.51job.com/my/65969433/My_Pmc.php?1558157
http://music.baidu.com/top/chinavoice2013
http://zhidao.baidu.com/zt/dianshiju/index.html

要求输出如下结果：

　　3 www.cnblogs.com
　　1 mail.qq.com
　　1 sports.sina.com.cn
　　1 my.51job.com
　　1 music.baidu.com
　　1 zhidao.baidu.com

我的代码如下：

 1 def getCounts(path):
 2     '''
 3     @path: txt文件全路径
 4     '''
 5     lstNet = []
 6     f = open(path)
 7     strData = f.read()
 8     lstData = strData.split('\n')
 9     for val in lstData:
10         r = re.search(r'http://(?P<name>[a-zA-z0-9.]+)/', val)
11         if r:
12             lstNet.append(r.group('name'))
13 
14     lstNetAll = sorted(set(lstNet), key=lstNet.index)
15     for val in lstNetAll:
16         print lstNet.count(val), val
17 
18 getCounts(path)

View Code

如果你有更好的办法，欢迎交流指导。。。

2、文本文件StringDoc.txt内容如下：

　　16:20:23　Disk001　snmpd[1853]:　Connection from 210.40.80.18

　　16:25:25　Disk002　snmpd[1853]:　Connection from 210.40.80.10

　　16:30:21　Disk007　snmpd[1853]:　Connection from 210.40.80.15

　　16:35:24　Disk001　snmpd[1853]:　Connection from 210.40.80.15

　　16:35:24　Disk001　snmpd[1853]:　Connection from 210.40.80.16

　　16:20:23　Disk008　snmpd[1853]:　Connection from 210.40.80.10

　　16:25:26　Disk009　snmpd[1853]:　Connection from 210.40.80.15

　　16:30:24　Disk001　snmpd[1853]:　Connection from 210.40.80.15

　　16:35:24　Disk002　snmpd[1853]:　Connection from 210.40.80.11

请找出所有包含“Disk001”的行，要求变成如下格式输出，相同的行只输出一次并且按照IP地址排序。

如Disk #1 210.40.80.18

我的代码如下：

。。。。。。

3、请匹配电子邮件信箱

pat = "^[a-z0-9]([a-z0-9]*[-_]?[a-z0-9]+)*@([a-z0-9]*[-_]?[a-z0-9]+)+[\.][a-z]{2,3}([\.][a-z]{2})?$"
add = "234576832@qq.com"

g = re.search(pat, add)
if g:
    print g.group()
else:
    print "fail"

View Code

国际域名格式如下：域名由各国文字的特定字符集、英文字母、数字及“-”(即连字符或减号)任意组合而成, 但开头及结尾均不能含有“-”，“-”不能连续出现。域名中字母不分大小写。域名最长可达60个字节(包括后缀.com、.net、.org等)。

说明：
①/内容/i 构成一个不区分大小写的正则表达式；^ 匹配开始；$ 匹配结束。

②[a-z0-9] E-Mail前缀必需是一个英文字母或者数字开头

③([a-z0-9]*[-_]?[a-z0-9]+)* 和_a_2、aaa11、_1_a_2匹配，和a1_、aaff_33a_、a__aa不匹配，如果是空字符，也是匹配的，*表示0个或者多个。

④*表示0个或多个前面的字符.

⑤[a-z0-9]* 匹配0个或多个英文字母或者数字；[-_]? 匹配0个或1“-”，因为“-”不能连续出现。

⑥[a-z0-9]+ 匹配1个或多个英文字母或者数字，因为“-”不能做为结尾

⑦@ 必需有个有@

⑧([a-z0-9]*[-_]?[a-z0-9]+)+ 见上面([a-z0-9]*[-_]?[a-z0-9]+)*解释，但是不能为空，+表示一个或者为多个。

⑨[\.] 将特殊字符(.)当成普通字符；[a-z]{2,3} 匹配2个至3个英文字母，一般为com或者net等。
⑩([\.][a-z]{2})? 匹配0个或者1个[\.][a-z]{2}(比如.cn等) 我不知道一般.com.cn最后部份是不是都是两位的,如果不是请修改{2}为{起始字数,结束字数}

posted @ 2013-09-09 23:32 开心星阅读(194) 评论(0) 收藏举报

刷新页面返回顶部

python之re模块 举例讨论

公告

python之re模块举例讨论