coffee_cn

博客园 首页 新随笔 联系 订阅 管理
把HTML文件中的标签全部过滤。相关的正则表达式,整理出5条,顺序不要乱,已经验证。
// 过滤 <!--  -->
string pattern1 = @"<!--[\s\S]*?-->";

// 过滤 <script>...</script>
string pattern2 = @"<[\s]*?script[^>]*?>[\s\S]*?<[\s]*?\/[\s]*?script[\s]*?>";

// 过滤 <style>...</style>
string pattern3 = @"<[\s]*?style[^>]*?>[\s\S]*?<[\s]*?\/[\s]*?style[\s]*?>";

// 过滤事作 匹配如:<img onclick="if(this.width>1000) return false;"/>
string pattern4 = @"<[^>]*?([^>]*?[\s]on[\w]+[\s]*?=[\s]*?([""']?)([^\2]+?)\2)+[^>]*?>";

// 过滤HTML标签
string pattern5 = @"<[\s\S]*?>";
posted on 2012-04-05 21:45  coffee  阅读(489)  评论(0)    收藏  举报