C#过滤html标签

C#过滤html标签

    在项目中遇到这样一个需求,需要将一段html转换为一般文本返回,万能的正则表达式来了。

    正则表达式来拯救你,代码如下:

复制代码
 1 public static string Html2Text(string htmlStr)
 2 
 3 {
 4 
 5     if (String.IsNullOrEmpty(htmlStr))
 6 
 7     {
 8 
 9         return "";
10 
11     }
12 
13     string regEx_style = "<style[^>]*?>[\\s\\S]*?<\\/style>"; //定义style的正则表达式 
14 
15     string regEx_script = "<script[^>]*?>[\\s\\S]*?<\\/script>"; //定义script的正则表达式   
16 
17     string regEx_html = "<[^>]+>"; //定义HTML标签的正则表达式   
18 
19     htmlStr = Regex.Replace(htmlStr, regEx_style, "");//删除css
20 
21     htmlStr = Regex.Replace(htmlStr, regEx_script, "");//删除js
22 
23     htmlStr = Regex.Replace(htmlStr, regEx_html, "");//删除html标记
24 
25     htmlStr = Regex.Replace(htmlStr, "\\s*|\t|\r|\n", "");//去除tab、空格、空行
26 
27     htmlStr = htmlStr.Replace(" ", "");
28 
29     htmlStr = htmlStr.Replace(""", "");//去除异常的引号" " "
30 
31     htmlStr = htmlStr.Replace(""", "");
32 
33     return htmlStr.Trim();
34 
35 }
Html2Text
复制代码

 

作者:weihanli

出处:https://www.cnblogs.com/weihanli/p/Html2TextViaCSharp.html

版权:本作品采用「署名-非商业性使用-相同方式共享 4.0 国际」许可协议进行许可。

posted @ 2016-08-17 10:18  WeihanLi  阅读(3601)  评论(1)    收藏  举报
编辑推荐:
· 协程本质是函数加状态机——零基础深入浅出 C++20 协程
· 编码之道,道心破碎。
· 记一次 .NET 某发证机系统 崩溃分析
· 微服务架构学习与思考:SOA架构与微服务架构对比分析
· tomcat为什么假死了
阅读排行:
· 历时半年,我将一个大型asp.net的零代码快速开发平台转成了java
· C#实现语音预处理:降噪、静音检测、自动增益(附Demo源码)
· 推荐五大AI+MCP自动化测试工具!
· 记一次 .NET 某无语的电商采集系统 CPU爆高分析
· Spring Boot 启动优化实践
点击右上角即可分享
微信分享提示
more_horiz
keyboard_arrow_up dark_mode palette
选择主题