python之re模块 举例讨论
1、在文件websites.txt中的内容如下:
http://www.cnblogs.com/bfchuan/p/3309748.html http://www.cnblogs.com/ http://mail.qq.com/cgi-bin http://sports.sina.com.cn/nba/ http://www.cnblogs.com/tangkaixin/ http://my.51job.com/my/65969433/My_Pmc.php?1558157 http://music.baidu.com/top/chinavoice2013 http://zhidao.baidu.com/zt/dianshiju/index.html
要求输出如下结果:
3 www.cnblogs.com
1 mail.qq.com
1 sports.sina.com.cn
1 my.51job.com
1 music.baidu.com
1 zhidao.baidu.com
我的代码如下:
1 def getCounts(path): 2 ''' 3 @path: txt文件全路径 4 ''' 5 lstNet = [] 6 f = open(path) 7 strData = f.read() 8 lstData = strData.split('\n') 9 for val in lstData: 10 r = re.search(r'http://(?P<name>[a-zA-z0-9.]+)/', val) 11 if r: 12 lstNet.append(r.group('name')) 13 14 lstNetAll = sorted(set(lstNet), key=lstNet.index) 15 for val in lstNetAll: 16 print lstNet.count(val), val 17 18 getCounts(path)
如果你有更好的办法,欢迎交流指导。。。
2、文本文件StringDoc.txt内容如下:
16:20:23 Disk001 snmpd[1853]: Connection from 210.40.80.18 16:25:25 Disk002 snmpd[1853]: Connection from 210.40.80.10 16:30:21 Disk007 snmpd[1853]: Connection from 210.40.80.15 16:35:24 Disk001 snmpd[1853]: Connection from 210.40.80.15 16:35:24 Disk001 snmpd[1853]: Connection from 210.40.80.16 16:20:23 Disk008 snmpd[1853]: Connection from 210.40.80.10 16:25:26 Disk009 snmpd[1853]: Connection from 210.40.80.15 16:30:24 Disk001 snmpd[1853]: Connection from 210.40.80.15 16:35:24 Disk002 snmpd[1853]: Connection from 210.40.80.11
请找出所有包含“Disk001”的行,要求变成如下格式输出,相同的行只输出一次并且按照IP地址排序。
如Disk #1 210.40.80.18
我的代码如下:
。。。。。。
3、请匹配电子邮件信箱
pat = "^[a-z0-9]([a-z0-9]*[-_]?[a-z0-9]+)*@([a-z0-9]*[-_]?[a-z0-9]+)+[\.][a-z]{2,3}([\.][a-z]{2})?$" add = "234576832@qq.com" g = re.search(pat, add) if g: print g.group() else: print "fail"
国际域名格式如下:域名由各国文字的特定字符集、英文字母、数字及“-”(即连字符或减号)任意组合而成, 但开头及结尾均不能含有“-”,“-”不能连续出现 。 域名中字母不分大小写。域名最长可达60个字节(包括后缀.com、.net、.org等)。
说明:
①/内容/i 构成一个不区分大小写的正则表达式;^ 匹配开始;$ 匹配结束。
②[a-z0-9] E-Mail前缀必需是一个英文字母或者数字开头
③([a-z0-9]*[-_]?[a-z0-9]+)* 和_a_2、aaa11、_1_a_2匹配,和a1_、aaff_33a_、a__aa不匹配,如果是空字符,也是匹配的,*表示0个或者多个。
④*表示0个或多个前面的字符.
⑤[a-z0-9]* 匹配0个或多个英文字母或者数字;[-_]? 匹配0个或1“-”,因为“-”不能连续出现。
⑥[a-z0-9]+ 匹配1个或多个英文字母或者数字,因为“-”不能做为结尾
⑦@ 必需有个有@
⑧([a-z0-9]*[-_]?[a-z0-9]+)+ 见上面([a-z0-9]*[-_]?[a-z0-9]+)*解释,但是不能为空,+表示一个或者为多个。
⑨[\.] 将特殊字符(.)当成普通字符;[a-z]{2,3} 匹配2个至3个英文字母,一般为com或者net等。
⑩([\.][a-z]{2})? 匹配0个或者1个[\.][a-z]{2}(比如.cn等) 我不知道一般.com.cn最后部份是不是都是两位的,如果不是请修改{2}为{起始字数,结束字数}
浙公网安备 33010602011771号