alexmen

专注.net软件开发,项目管理体系PMBOK.

  博客园 :: 首页 :: 博问 :: 闪存 :: 新随笔 :: 联系 :: 订阅 订阅 :: 管理 ::

# 1 将 <td ....> 转化为<td>
#
(?i) 表示不区分大小写
a = re.compile("(?i)[\<]td.*?[\>]" )
s=a.sub("<td>",s)

#2 将 </td ....> 转化为</td>
a = re.compile("(?i)[\<]td.*?[\>]" )
s=a.sub("<td>",s)

#3 提取介于<td> 与 </td> 之间的内容
# --- (?<=<td>).*?(?=</td>)的说明 ----
# (?<=<td>)表示以<td>开始,但不提取<td>
# (?=</td>)表示以</td>结束,但不提取</td>

a=re.compile("(?i)(?<=<td>).*?(?=</td>)")
c = [x.group() for x in a.finditer(s) ]
print(c)

#4 C数组中存的是每一个"格" 的内容,它可带有其他的标记
# 把C中每个元素中介于"<" 和 ">" 之间(含< >)删除.

# [\<].*?[\>] 表示以<开始,以>结束的字符序列中间有任意非">"字符

# 也可以写作 [\<][^\>]*?[\>]

print ( "把C中每个元素中介于'<' 和 '>' 之间(含< >)的字符删除后:")
a=re.compile("(?i)[\<].*?[\>]")
for i in range(0,len(c)):
c[i] = a.sub("",c[i] )
print ( c )

posted on 2011-08-12 17:02  alexmen  阅读(3669)  评论(0编辑  收藏  举报