一个较完整的关键字过滤解决方案

圣诞节将至，虽然经济危机让这个寒冬雪上加霜，但我们仍应该积极地面对生活、朋友、亲人，把我们最快乐的一面传递给别人。大V在这里提前祝大家圣诞节快乐了！

看了暧昧的赵同学的《一个较完整的关键字过滤解决方案（上）》（http://www.cnblogs.com/JeffreyZhao/archive/2008/12/22/filter-forbidden-word-solution.html）的文章之后，突然手痒就决定也做一个类似功能的过滤器。因为我本人也是赵同学的粉丝，外加这标题也是盗版的，就自语山寨版好了。

一样的思路：HttpModule，就像拿着筛子筛麦子一样，黄色的、政治的、流氓的统统给他转成文明用语，就像cnBeta一样，一样地暴力一样地文明。

通过这篇文章您可以学会：

创建添加一个HttpModule
截获一段Http流
获取全部的页面内容
一段简陋的文本替换逻辑
基于过滤器平台扩展自己的过滤器

需求概要

简单地说，因为是受赵同学文章的影响才写这个小玩意的，因此需求也是一样的，无非就是像cnBeta一样，将所有涉及敏感流氓政治词汇替换成文明用语。一样的不小心，在设计网站前，咱也不知道政府有“保护下一代”的计划，因此开放的平台让那些好事的主儿言论自由，后来发现现在的市民素质怎么逐年下降，主要表现为非主流增多以及非文明用语飙升，Google智能提示随便输入一词，关联的黄色信息直接爬上首位。这可不符合文明上网的宗旨。可是你丫的这年头办个网站容易么我，一不小心就新建了一百多个可以用户自行输入的页面，咱要挨个修改还不如关门算了。

赵同学非常有心，就创建了那个文明上网卫士，这下好了，把卫士往那里一部署，你再输入“中国”就都给你转成“天朝”，你一色性大发就给你转为“文明用语”，或者干脆都让你变成“***”，顺便给圣诞节增添雪花。不知道赵同学的（下）要出个什么内容，就觉着这统统给你转换了不是太好。比如是cnbeta，那些评论转瞬即逝，谁也无所谓，骂过了，留脚印了，就没人关心了，几乎没有人翻开去年的新闻细细品味那里的天朝人民和文明用语。但是如果是咱博客园，评论语也是有价值的，如果哪天改革开放了，文明用语的定义放宽了，这些内容还可以重新定义过。因此在提交的时候就过滤有的时候就显得不够合适了。

而我的方式则是在输出的时候篡改。而实际写入数据库的内容仍然是内容作者的原始版本，咱到时候才可以有法可依。

创建添加一个HttpModule

虽然添加一个HttpModule的文章很多也很专业，但这里还是有必要简要地说一下。（查看更多）

这幅图主要解释了HTTP Module在一次请求中的作用。首先任何向IIS发出的请求将调用相应的ISAPI进行处理，因此我们在IIS中去掉aspx的后缀匹配，将无法返回正确的请求，同样，像MSDN可以在IIS中添加mspx，同样指定由ASPNET_ISAPI进行处理，跟aspx没有任何的区别。但是ISAPI是一个本地非托管程序，通常由C++实现，因此增加了程序员的开发成本，ASP.NET平台允许大家通过ASP.NET Module的方式，使用托管代码来编写管道模式的插件来自由增加这些中间步骤。

实现和部署一个HTTP Module是非常简单的，只需要创建一个类，实现IHttpModule接口，就可以了。这个接口很简单，只有Init和Dispose两个方法。在Init中我们可以得到当前HttpApplication的实例，有了这个实例，自然就可以得到更多跟我们实例相关的信息了。HttpModule通常是通过订阅事件的方式，来做相应的处理。

public void Init(HttpApplication context) {
    context.BeginRequest += new EventHandler(context_BeginRequest);
    context.EndRequest += new EventHandler(context_EndRequest);
}

通过事件处理程序的sender就可以获得HttpApplication对象了，至于这个对象怎么处理就仁者见仁了。怎么样，简单吧？

编译这个程序集，你将得到一个单独的dll，它就是你的HttpModule。因为HttpModule被设计成可以自由发布并使用的结构，所以它是一个单独的可拷贝后部署的dll，哪怕你就是在你的WebSite项目中编写它们，它们也与你的程序没有丝毫的关系。因此你需要部署它们。

要使用HttpModule，需要你使用IIS而不是Visual Studio提供的轻量级的开发服务器。部署该程序集需要你修改web.config。针对IIS7以及IIS7以下版本，这个配置是不一样的（准确的说是IIS7的集成管道模式）。打开要应用该HttpModule的项目的web.config，找到httpModules和modules两个节，其中modules是针对集成管道模式的时候会用到的配置节，而httpModules则针对经典的配置所准备的。因此如果你使用的是Vista或者Server2008以下版本的操作系统，那么你肯定是要配置httpModules的，如果你使用了Vista或者Server2008及以上版本，但是没有使用集成管道模式，那你也还是要配置httpModules。

怎么配呢？这个大家可以通过模仿和实践就可以很容易学会，或者上Live搜一下就知道了。我这里仅列出本程序的配置。

<httpModules>
  <add name="ScriptModule" type="System.Web.Handlers.ScriptModu …… 
  <add name="FilterModule" type="FilterModule.FilterModule" />
</httpModules>

<modules>
  <remove name="ScriptModule"/>
  <add name="ScriptModule" preCondition="managedHandler" type="S ……

  <remove name="FilterModule"/>
  <add name="FilterModule" type="FilterModule.FilterModule" />
</modules>

截获一段HTTP流

要想得到HTTP流可不是想象的那样，你会发现通过HttpApplication无法直接得到返回客户端的HTML，你可能可以得到Headers，Post过来的数据，浏览器上的地址，查询字符串等诸多对象，但是却没有我们在控件或者页面通过HtmlTexter writer.Write出来的Html，或者你想要一堆按着层级的Control也是不行的。

还好HttpResponse.Filter属性的名字起得跟我的模块太像了，所以就把它拉出来溜溜，没想到就是它了。它的思想很简单，就是由你提供一个Stream的派生类的实例，那么每个经过管道的流就会调用相应的Write方法，而不是由你读一个属性，改完再放回去。

可是你可不是一次获得全部的文本，因为我们知道流的特性，也知道向客户端发送数据的方式，在一个最大值范围内，对应的流就会被发送到客户端，因此你得到的通常不是整个html源码，而是一段一段地读。不过不管怎么讲，总是把HTTP流截获出来了。

详见代码中：FilterStream.cs

public override void Write(byte[] buffer, int offset, int count) {
    if (HttpContext.Current.Response.ContentType == "text/html") {
        string charSet = HttpContext.Current.Response.Charset;
        System.Text.Encoding encoding = Encoding.GetEncoding(charSet);
        string currentHtml = encoding.GetString(buffer, offset, count);

        //other code

        byte[] outputBuffer = encoding.GetBytes(currentHtml);
        _instance.Write(outputBuffer, 0, outputBuffer.Length);
    }
    else {
        _instance.Write(buffer, offset, count);
    }
}

获取全部的页面内容

在上一部分提到了HTTP流截获的分段特性，我们要获取页面全部的内容，就应该有一个用于叠加的变量用于保存，这里我写了一个保存上下文的简单的类，提供了三组属性用于访问，一个是OriginalContent，一个是CurrentContent，另一个是OutputContent，OriginalContent在每次Write之后叠加原始文本，因此在EndRequest中获取它将得到原始的Html（全部）的内容。而OutputContent用于保存处理后的内容，而CurrentContent则是用于存储当前值，也就是上一部分提到的一段一段的内容。

在这个Filter模块中，你可以在Request中添加事件：

void context_BeginRequest(object sender, EventArgs e) {
    var app = (sender as HttpApplication);

    //other code
    filterStream.Responsing += new EventHandler(filterStream_Responsing);
    app.Response.Filter = filterStream;
}

void filterStream_Responsing(object sender, EventArgs e) {
    IPageProcessor processor = sender as IPageProcessor;
    if (processor != null) {
        processor.Context.CurrentContent = processor.Context.CurrentContent.Replace("长得真帅", "长得真丑");
    }
}

增加了你的便携性，但事实上我并不推荐你这么做，但如果你自己愿意再扩展几个Filter出来的话，或许对你有帮助。但这里不可以对OutputContent进行赋值操作，因为你的赋值会无效，而且有可能让你迷惑，因此这里我对你的无心操作抛出了异常，这里唯一推荐的操作大概就是读取了。当然，最后一次你就可以通过OutputContent得到完整的代码了，但是你已经失去了对之前内容的修改权。

一段简陋的文本替换逻辑

不敢称什么算法，人家算法都有英文名，咱这东西太简陋，就不要跟那高科技的玩意儿沾上边，大家可以把那些高级的算法套进来用。在我的示例中，这种方式可能在你看来很低效或者没有借鉴意义，那你可以动手换成自己的。

我这里的方式比较土，我是这样想的，因为我们要替换的是html，而html就必然有标签，因此标签是不需要处理的，这是其一，因为标签是自己写的，因此不会有非文明用语，所以也可以不管。标签其实占了html的很大一部分，因此我们需要遍历整个html（我想遍历是必须的，不然怎么知道它有什么内容呢？）。这里我按字符存取，一个字符并用一个bool值标识当前所处理的文本块。（怎么都觉得像是某个简单的C语言入门题isAlpha()？）

简单地总结一下标签的形式：

其实另外一种我没有处理而且有很大必要的是<script></scirpt>以及<script language=”javascript”></script>，因为通常的网站都不会让用户自己写脚本（博客园除外），因此这里面不文明就算了……当然，现在的方式把它们也处理了，当然按照推荐，我们应该把代码放在单独的文件中，这样我这个“流氓扫描仪”就失效了。

言归正传，这里其实只需要处理<>之间的内容就可以了，因为通常我们都是用<和>来标识真正用语显示的尖括号，因此我们从流中读到的<>都可以被认为是标签。从<开始标记，到>开始取消标记，并为每一个字符标注它们是否在标签内。一次遍历就做完了。现在只需要遍历这个得到的集合，将不用关心标签内的值，把它们整理回string，再把非标签内的内容也整理成string，并把它们经过我们的“流氓扫描字典”的过滤（一个映射“中国”->“天朝”的字典集合），经过第一遍的扫描，剩下要replace的部分就少之又少了。至于针对字符的操作的一些处理可能您认为会损失大量的性能，但其中真正的文字拷贝却不多，因为引用拷贝几千次（html页面的字符数）事实上代价一点不大，倒是那个replace可能会消耗一些性能，但有更精简的方式吗？大部分针对这个的算法应该是针对文字辨别的，而不是针对文本替换的，比如在人眼看来“中国”和“中国”是一样的，但是用replace就避免不了了。所以从这点讲我这里仍然不是一个算法，仅是一段逻辑。其实省去的标签部分事实上在为replace减负。

基于过滤器平台扩展自己的过滤器

其实你实现一个HttpResponse.Filter，就是一个过滤器了，这也是MS提供的，但是你无法再别的地方获取其中的文本，并且无法直接读取输出的文本（只能读出流），而且如果你需要处理的也只不过是塞选出来的非标签部分，那么你可能需要重新处理一遍，这不值得，因此你可以从我这里扩展，并且可以得到包括FilterContext在内的上下文支持。

public interface IPageProcessor {
    string Process(string beDisposed);
    FilterContext Context { get; set; }
}

通过实现这个接口，并将它添加进filters中（跟着ForbiddenWordFilter一样地放置就可以了），就可以得到跟它一样的扩展了。而这里你不需要处理FilterStream中Write这样的通过byte的字节数组来处流的流，同时也可以将它进行文本输出等其它操作。要实现这个类，ForbiddenWordFilter是一个很好的参考。

关于缓存

因为赵同学说缓存难做，事实上应该是这样讲，因为输入时候处理这个问题能够得到比较好的缓存支持，是因为这个情况的输出和平时并无二致，所以有很多的缓存机制可以用。而这里的输出时候写，不过是在输出的时候进行了另一些处理，最后我们要缓存的部分只不过延迟到了这个模块处理之后而已。如果愿意的话，稍微修改一下缓存的代码应该会好很多，或者如果是那种静态页的形式，直接在Begin的时候重定向过去也未尝不可。当然这个可能牵涉到缓存的实现方式，也许有的缓存方式这里就不能用了，这个或许就是代价吧。

一些修改

您如果决定使用这个模块用来应付检查，或者你的网站还没有高并发到一用这个模块就Down机，那么你可以选择该模块为你快速实现该功能。即便如此，你所下载的代码最好都经过修改后使用，比如流氓代码我是写在代码里的，这可能不能满足管理员的需要，你可以增加从文件读取流氓词语的功能，或者由用户举报词汇来过滤（也算人工智能哈，不过是手动的而已），而这些代码我就不给你加了，因为我自己不用这个东西，没有需求嘛！当然因为没有在大环境使用过，也没有经过压力测试，所以会不会Down你自己拿去试了，不好用的记得回来这里告诉我一声。

你还要改什么呢？事情永远是做不完的，现在你要实现一个deny列表或者是一个allow的列表，在BeginRequest的时候检测你所访问的页面是否在过滤范围内，如果你就是开黄色网站的主，或者您的个别页面是只适合成人的，那么你就需要对这些站点进行排除。当然了，你可以实现对目录的扫描，这样做有点像ASP.NET中对权限访问的过滤，但这也省去你的麻烦，当然如果你是一个第三方组件，并可以提供专人负责管理哪些不用过滤哪些需要过滤，或者您需要从数据库分析对该文的用户评价，并根据您指定的规则进行自动裁定，您也可以有自己的逻辑。

下载代码

这只是完成了大部分功能的示例，我不提供任何担保，您可以随意修改它并自用。

1、https://files.cnblogs.com/volnet/WebAppFilterForbiddenWord.zip

2、http://v-labs.googlecode.com/files/WebAppFilterForbiddenWord0.1.zip

阅读代码

1、http://code.google.com/p/v-labs/source/detail?r=18

posted on 2008-12-24 03:23 volnet（可以叫我大V）阅读(4922) 评论(45) 收藏举报

刷新页面返回顶部

玩转C科技.NET

导航

公告

一个较完整的关键字过滤解决方案