zhouyongguo

欢迎
  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

找到最重要的知识

Posted on 2012-01-06 10:52  zhouyongguo  阅读(304)  评论(0编辑  收藏  举报
找到最重要的知识  

     提起google,不仅会想起快速准确的检索,也会提到其中最重要的pagerank技术,作为google的核心 技术他是其创始人在斯坦福大学开发的一套网页评价技术。简单的解说,就是“从许多优质的网页链接过来的网页,必定还是优质网页”,pagerank利用互 联网独特的民主特性及其巨大的链接结构,在浩如烟海链接资源中提取上亿个超级k链接进行分析,制作出巨大的网络地图。依据这些信息计算出网页的级别。这个 级别依旧是:当网页a链接到网页b时,就认为网页a投了网页一票,google以其复杂自动的搜素方法排除人为因素对搜索结果的影响。

    但是作为知识检索工具我们要找到适合自己有用的知识依然是一件困难的事情。

a. pagerank算法使得pagerank最多的网页往往是新浪那样的大型门户网站,用户需要点击进去的不是超链的列表而是具体的知识。

b. Pagerank按照建立在超链的分析模型之上,统计出每一个超链的阻尼给与评价,但是现在用户目前更喜欢通过搜索引擎去获取知识,而不是超链路由。

c. 许多重要的知识和文献并不比娱乐新闻被转载。

 

我们试图构建更好的能够在使用中简单学习的搜索引擎。

1. 信息活性和查看或者创建的时间相关,被用户搜索后点击浏览或者第一次被抓取的时间越近活性越大。

2. 用户通过搜索引擎搜索信息,查看摘要,信息被查看的次数越多,记忆被加强,活性越大。

3. 随着时间推移,信息的活性逐渐衰减,多次被搜索查看的信息衰减速度缓慢

4. 相关信息会被联想,活性互相加强。

5. 通俗的讲,就是借助用户在搜索过程中的点击,将单此搜索过程中的点击信息关联起来,他们的活性互相得到加强。

6. 按照信息的活性对信息排序

 

我们抓取博客园25万资料进行采样分析,通过Lucene.Net构建搜索引擎进行分析论证。和博客园在搜索信息进行比较。

活性评级公式:(0.5+0.1/s+ ∑ (1/n*h) 其中那表示关联信息个数,h表示每个关联信息的活性

衰减曲线:Fx)=Exp(s)*10/(x-2) 其中x是时间增量 s是重复次数