python之re模块 举例讨论

1、在文件websites.txt中的内容如下:

http://www.cnblogs.com/bfchuan/p/3309748.html
http://www.cnblogs.com/
http://mail.qq.com/cgi-bin
http://sports.sina.com.cn/nba/
http://www.cnblogs.com/tangkaixin/
http://my.51job.com/my/65969433/My_Pmc.php?1558157
http://music.baidu.com/top/chinavoice2013
http://zhidao.baidu.com/zt/dianshiju/index.html

要求输出如下结果:

  3 www.cnblogs.com
  1 mail.qq.com
  1 sports.sina.com.cn
  1 my.51job.com
  1 music.baidu.com
  1 zhidao.baidu.com

我的代码如下:

 1 def getCounts(path):
 2     '''
 3     @path: txt文件全路径
 4     '''
 5     lstNet = []
 6     f = open(path)
 7     strData = f.read()
 8     lstData = strData.split('\n')
 9     for val in lstData:
10         r = re.search(r'http://(?P<name>[a-zA-z0-9.]+)/', val)
11         if r:
12             lstNet.append(r.group('name'))
13 
14     lstNetAll = sorted(set(lstNet), key=lstNet.index)
15     for val in lstNetAll:
16         print lstNet.count(val), val
17 
18 getCounts(path)
View Code

如果你有更好的办法,欢迎交流指导。。。

2、文本文件StringDoc.txt内容如下:

  16:20:23 Disk001 snmpd[1853]: Connection from 210.40.80.18

  16:25:25 Disk002 snmpd[1853]: Connection from 210.40.80.10

  16:30:21 Disk007 snmpd[1853]: Connection from 210.40.80.15

  16:35:24 Disk001 snmpd[1853]: Connection from 210.40.80.15

  16:35:24 Disk001 snmpd[1853]: Connection from 210.40.80.16

  16:20:23 Disk008 snmpd[1853]: Connection from 210.40.80.10

  16:25:26 Disk009 snmpd[1853]: Connection from 210.40.80.15

  16:30:24 Disk001 snmpd[1853]: Connection from 210.40.80.15

  16:35:24 Disk002 snmpd[1853]: Connection from 210.40.80.11

 

请找出所有包含“Disk001”的行,要求变成如下格式输出,相同的行只输出一次并且按照IP地址排序。

如Disk #1 210.40.80.18

我的代码如下:

。。。。。。

3、请匹配电子邮件信箱

pat = "^[a-z0-9]([a-z0-9]*[-_]?[a-z0-9]+)*@([a-z0-9]*[-_]?[a-z0-9]+)+[\.][a-z]{2,3}([\.][a-z]{2})?$"
add = "234576832@qq.com"

g = re.search(pat, add)
if g:
    print g.group()
else:
    print "fail"
View Code

国际域名格式如下:域名由各国文字的特定字符集、英文字母、数字及“-”(即连字符或减号)任意组合而成, 但开头及结尾均不能含有“-”,“-”不能连续出现 。 域名中字母不分大小写。域名最长可达60个字节(包括后缀.com、.net、.org等)。 

说明:
①/内容/i 构成一个不区分大小写的正则表达式;^ 匹配开始;$ 匹配结束。

②[a-z0-9] E-Mail前缀必需是一个英文字母或者数字开头

③([a-z0-9]*[-_]?[a-z0-9]+)* 和_a_2、aaa11、_1_a_2匹配,和a1_、aaff_33a_、a__aa不匹配,如果是空字符,也是匹配的,*表示0个或者多个。

④*表示0个或多个前面的字符.

⑤[a-z0-9]* 匹配0个或多个英文字母或者数字;[-_]? 匹配0个或1“-”,因为“-”不能连续出现。

⑥[a-z0-9]+ 匹配1个或多个英文字母或者数字,因为“-”不能做为结尾

⑦@ 必需有个有@

⑧([a-z0-9]*[-_]?[a-z0-9]+)+ 见上面([a-z0-9]*[-_]?[a-z0-9]+)*解释,但是不能为空,+表示一个或者为多个。

⑨[\.] 将特殊字符(.)当成普通字符;[a-z]{2,3} 匹配2个至3个英文字母,一般为com或者net等。
⑩([\.][a-z]{2})? 匹配0个或者1个[\.][a-z]{2}(比如.cn等) 我不知道一般.com.cn最后部份是不是都是两位的,如果不是请修改{2}为{起始字数,结束字数} 

  

posted @ 2013-09-09 23:32  开心星  阅读(194)  评论(0)    收藏  举报