一些正则表达式

1.一个标签

  (?<=<[^>]*>).*?(?=<[^>]*>)

2.嵌套的div标签,其中可以含有a标签,不能含有别的标签,第一个div标签包含class="card-summary-content"

  <div class=\"card-summary-content\">[^<>]*((((?'Open'<div[^>]*>)[^<>]*)(<a[^>]*>[^<>]*</a>[^<>]*)*)+((?'-Open'</div>)[^<>]*)((<a[^>]*>[^<>]*</a>[^<>]*)*)+)*(?(Open)(?!))</div>

3.百度百科人物标签

  (?<=词条标签:\s*<[^>]+>\s*)<dd[^>]*>.*?</dd>

  (?<=开放分类:).*?<dd[^>]*>.*?</dd>

posted @ 2013-09-17 16:49  亘大  阅读(114)  评论(0)    收藏  举报