DNN搜索引擎研究

      几个月前,研究一下DNN的搜索引擎机制和原理。研究的起因是,想使用DNN的搜索引擎,但是发现它对中文的支持非常之差,为了改进它,使之能够支持中文,所以开始探究它的原理。由于研究过程中涉及了DNN的很多项目和源码,如果通过文字将其原理写出来,并且使看的人能够清楚明白,以我的文字表达能力恐怕有些困难,因此做了一个PPT,试图通过图文并茂的直观形式,使大家对DNN的搜索引擎有所了解。
      该PPT的内容均为个人研究成果,期间参考了网上的一些资料和DNN3.2.2的英文文档,主要是详细阅读了DNN相关的源码,若有谬误,欢迎指正。在PPT的最后,我提出了改进DNN搜索引擎的设想,事实上,现在我已经找出了一种支持中、英文的分词方法,替代了DNN原有的分词,达到了使搜索引擎对中英文都支持的目的,并且已经投入了使用,效果良好。如果大家有兴趣,我会考虑写后续的文章。
      总的来说,DNN的搜索引擎的要点可以分为三个部分:
      1、在DNN的架构中,提供了一个ISearchable的接口,只要实现这个接口的模块,都可以作为搜索的数据源。比如DNN自带的Text/Html模块,就实现了这个接口,搜索的结果中就会包括Text/Html模块的内容。同样的,你如果想让自己写的模块被搜索引擎收录的话,你就要实现ISearchable接口。
      2、DNN使用调度机制对数据源进行分词。也就是说,你在页面上加入了一个Text/Html模块,并且录入了一篇文章后,要等待DNN的搜索引擎调度执行之后,这篇文章的内容才可以被搜索引擎搜索到,而不会马上显示在搜索结果中,因为调度是定时执行的。
      3、DNN为实现搜索引擎,撰写了一系列的工程项目,凡是与Search字眼相关的,比如DotNetNuke.SearchInput、DotNetNuke.SearchResults等。本文提供的PPT,主要是对这些工程项目进行分析,对于调度并没有深入研究。
      特别说明:请大家下载PPT后,使用放映模式观看,效果最佳,不要在PowerPoint软件里翻页,因为我使用了很多动态效果模拟DNN搜索引擎的执行过程。
      点击下载:DNN搜索引擎研究

posted on 2007-01-19 17:22 阿多斯 阅读(2087) 评论(10)  编辑 收藏 网摘 所属分类: DotNetNuke,DNN

评论

#1楼 2007-01-19 23:05 马哥      

不管怎样,先支持,后下载。回头给建议:)   回复  引用  查看    

#2楼 2007-01-20 00:06 Hunts.C      

看了 不错:)   回复  引用  查看    

#3楼 2007-01-20 00:48 哈哈熊      

这么热心 看看   回复  引用  查看    

#4楼 2007-01-20 08:23 辛兵      

分析得非常细致, 期待后续的文章。谢谢!   回复  引用  查看    

#5楼 2007-01-24 18:04 雪山之巅的阳光      

支持   回复  引用  查看    

#6楼 2008-06-26 13:56 laotian[未注册用户]

呵呵,看不见回复哦   回复  引用    

#7楼 2008-06-26 13:57 laotian[未注册用户]

我正在做搜索引擎相关的东西,发现最关键的就是对html解析,我写了几篇关于解析的blog,不知道是否可以适用于大型搜索引擎,欢迎博主帮忙参考参考。给点建议:
http://blog.csdn.net/RonoTian/archive/2008/06/06/2517568.aspx
希望多多交流。
  回复  引用    

#8楼 2008-07-31 17:34 Baldwin      

研究得很细,有机会一起交流, 能分享你的中文分词心得么? 期待后续文章详述 :)   回复  引用  查看    

#9楼[楼主] 2008-07-31 17:55 阿多斯      

@laotian
我看了你的东西,你研究得比我细、深入而且专业,我只是略微看了一下DNN的搜索,它属于对内容检索,而你研究的是对网页的检索,两者不一样,所以实在谈不上给你什么建议。

@Baldwin
有机会去参加你们的活动,上次我周末有事没去成。说起中文分词来我研究得也很肤浅,网上这方面的研究挺多的。
  回复  引用  查看    




发表评论

昵称: [登录] [注册]

主页:

邮箱:(仅博主可见)

评论内容:

  登录  注册

[使用Ctrl+Enter键快速提交评论]

0 624979




相关文章:

相关链接:

导航

公告

 念念之中,不思前境。
 若前念、今念、后念,
 念念相续不断,名为系缚。
 于诸法上,念念不住,
 即无缚也。
          ——坛经·定慧品

 
 
  Locations of visitors to this page
今上午有些忧伤,听些流行女声,林忆莲,王菲,邓丽君,李度...
<2007年1月>
31123456
78910111213
14151617181920
21222324252627
28293031123
45678910

统计

与我联系

搜索

 

常用链接

留言簿

我参与的团队

随笔分类

随笔档案

My Friends' Blog

积分与排名

最新评论

阅读排行榜

评论排行榜