随笔-80  评论-383  文章-17  trackbacks-7

        前面几节里有朋友提到CS2对中文搜索支持的不好,那么这一节就提前到这里来讲讲怎样解决CS2对中文搜索的问题。
        我们都知道,英文和中文语言上的不同导致了处理英文和中文的不同方法,最明显的不同就是英文是以单词为最小单位,而中文则是以字为最小单位,这样造成了程序上的不一样,而在CS2中默认的搜索模块只考虑到英文这一方面,对中文相当于不认识了,怎样让其认识中文呢,这就需要我们来分析CS2处理搜索的机制。
        虽然CS2中使用的分词搜索,但其技术本身并不是很复杂,我们完全可以自己动手来改造其搜索效果。简单一点我就直截了当的介绍其分词搜索的原理吧。与我们常见的一些使用SQL语句在数据结构里搜索不同,分词搜索把需要搜索的数据预先进行索引(这里的索引不是通常所指的数据库本身的索引),在搜索引擎里的文章最小单位是词,英文按照单词,也就是按空格分开,中文就需要用到分词技术了,把一篇文章智能的分成多个词语的组合的技术,这也是搜索技术的核心,搜索结果的理想程度很大程度取决于分词的理想程度,把一篇文章分开为词语的组合后,将其内容逐个记录并保存权重值,当然这里也涉及到一些高级技术,在CS中使用了较简单的方式,直接记录词在其文章中的信息。搜索文章的时候在此即可快速定位到需要的文章。说了这么多感觉比较抽象,还是结合实例来说吧。
        打开解决方案我们会看到有CommunityServerSearchBarrel这样的项目,在这个项目里都是一些job和Item形式的类,这些类就是完成索引的关键类,针对不同应用都有不同的job,说到Job,在之前的系列 已经介绍过其工作方式就是在后台单独的进程里运行的组件,在CommunityServer.config的jobs节点里可以对这些Job进行配置,我们可以在这里配置索引的间隔时间。其原理即为,当到了设定的时间间隔,针对不同应用的SearchJob在后台独立的线程开始工作,先判断是否出现了未进行索引的文章如果有新的文章出现则读取出来进行索引(一般为几十条数据),索引完后进行记录,下次就不再重复进行了,直到文章被修改后再次进行。
        简单了解了这么多之后让我们来解决问题吧,CS2不支持中文究竟问题出在哪里呢,让我们打开数据库的cs_SearchBarrel表,我们可以看到这里就是保存分词结果的地方,不过可以看到正确的一个个英文单词却很难看到一个正确的中文词语,这就是为什么CS2对中文支持的这么不好了,CS2在搜索时是检索这个表的数据的,这个表数据有问题当然就没有办法检索到正确的信息了。好了,现在已经很明确了,我们就是需要修改CS2对中文的分词,分词是一个复杂的技术,我们可以利用现有的分词组件来帮助我们。
        博客园真是个好地方,在正需要分词组件的时候Eunge 兄就发布了免费版本(虽然没开放源码,不过能用就行,何必太叫真呢),真是及时雨啊,无论分词效果怎样,这总归是个解决方案,我试用了它的组件,感觉还不错,能胜任一般的应用了,于是就拿了过来,发布网址参见:http://lovinger2000.cnblogs.com/archive/2006/03/02/ChineseTokenizerDll.html 那到这个好东东之后就可以开始我们的改造了:

        那么我们应该如何改造呢,对,把系统分词的方法替换成中文组件的方法即可,那么怎样嵌入我们的中文分词组件呢,当然是顺潮流使用代理模式了,这样如果我们有更好的分词组件扩展起来是非常容易的。首先来看看CommunityServerSearchBarrel这个项目,这个项目就是处理搜索相关的地方。找到核心的调用让我们看看SearchJob.cs的Index方法,这个方面就是索引文章的方法了,在这里我们可以看到string[] wordsToIndex = SearchTerms.CleanSearchTerms(contentToIndex);这样的语句,不难理解,这个就是把文档的各部分转换为词的字符串数组了。SearchTerms.CleanSearchTerms这个方法在CommunityServerComponents项目的Search/SearchTerms.cs下,在这里就是要修改的核心了,我们可以看到其中都是对英文单词的处理,当然,我们只要替换掉对英文的处理为中文分词原则上就可以,主要的修改为:

CleanSearchTerms

        怎样引入我们的分词组件呢,让我们先建立一个抽象的Provider来作为代理的基础类,在这里建立名为ChineseTokenizeProvider,当然是在CommunityServerComponents项目里建立了。代码如下:

ChineseTokenizeProvider

代码沿袭了CS中处理数据提供者的方式,只是这里使用的是分词提供方法,建立了基类后让我们建立一个扩展的代理层吧,这里我命名为Felix.NET.ChineseTokenWraper的项目其实就一个方法,也就是重写继承基类的抽象函数。如下:

Felix.NET.ChineseTokenWraper

当然完成了这些后还需要在配置文件加上这个Provider的配置,打开CommunityServer.config文件,在Providers配置节里添加如下代码:

<!--Edit by lf加入对中文分词的支持-->
        
<add 
                    
name = "ChineseTokenizeProvider"
                    type 
= "Felix.NET.ChineseTokenWraper.ChineseTokenizer, Felix.NET.ChineseTokenWraper"
                
/>

         处理完这些后就可以说大功告成了一半了,只是还有很多语言方面的问题需要我们在调试的时候处理,具体的处理细节我就不细说了,自己调试调试就ok了,我也放上自己的CommunityServerSearchBarrel项目,主要修改也就是这个项目了。
        发现写这个文档怎么这么费力,好像还没说得很清楚,不过实在精力有限,还有很多事情等着我做,要完善这个功能还需要你细心调试,这里也就起到引个路子的作用,如果它能帮到你,我花这些功夫就没白费了。

[相关代码下载]

Update:这里有对搜索的更详细的解释http://googlechinablog.com/2006/05/blog-post_10.html

posted on 2006-06-10 15:21 dragonpro 阅读(3361) 评论(9)  编辑 收藏 网摘 所属分类: 编程/技术

评论:
#1楼 2006-06-10 17:31 | Eunge      
呵呵,你的Community Server系列文章对我们帮助也不小啊。我们正在做Blog社区,就使用CS,希望得到你的多多帮助才是。
  回复  引用  查看    
#2楼 2006-06-10 22:23 | C# hack      
请问是不是要把所有帖子的indexed设置为false?
  回复  引用  查看    
#3楼 2006-06-10 23:03 | C# hack      
【风软FRM小组出品】【黄金三镖客】【DVD-R中文字幕】
这样的标题的帖子,似乎不能被索引?

  回复  引用  查看    
#4楼[楼主] 2006-06-11 01:21 | Felix      
@hack
改了这个之后就把cs_posts里的Isindex设置为0,这样系统就可以索引帖子数据了,另外记得清空cs_SearchBarrel这个里面的数据先,写SQL语句执行就可以了,
标题是否能正确索引完全取决与分词的效果,如果你对这个分词组件不满意那么另外选择一个也很好扩展,当然更可以自己写

  回复  引用  查看    
#5楼 2006-06-22 13:48 | Magician柯南[未注册用户]
好奇怪啊,我的CS2分词分的很好啊,中文的支持。
我从官方下的,语言设置为中文。

  回复  引用    
#6楼 2006-06-22 13:49 | Magician柯南[未注册用户]
@C# hack

我的CS2分的很好,你说的这种情况可以分的

  回复  引用    
#7楼 2006-06-22 13:57 | Magician柯南[未注册用户]
很喜欢楼主这一系列的文章!我问个问题希望楼主能讲讲:
MPContainer这个控件好奇怪啊,它是做什么用的?为什么在一些页面中显示不正常?能不能做一些修改?
还有,在CS2中其它的控件都是嵌在MPContainer中的,它们能不能和M$的控件合用啊?
MPContainer是从MasterPages中派生的,能不能也讲一下这个东东,我知道它是第三方的,所以不是很了解。

谢谢楼主的文章!

  回复  引用    
#8楼[楼主] 2006-06-27 20:25 | Felix      
MPContainer控件是个容器,表示页面还有上一级页面也就是Mastpage,在MpContainer控件内部可以使用任何服务器控件,这样的机制其实相当于asp时代用的#include而且这里的级数是没有限制的,你可以分级实现页面UI,这和继承很相似。
  回复  引用  查看    
#9楼 2006-07-21 19:48 | lonestone[未注册用户]
这两天正为这个事情烦恼呢,帮助不小,明天就去测试哈兹,谢谢
  回复  引用    



发表评论

昵称: [登录] [注册]

主页:

邮箱:(仅博主可见)

评论内容:

  登录  注册

[使用Ctrl+Enter键快速提交评论]

0 422504




相关文章:

相关链接:
Free Web Counter