文章分类 -
算法
[转]A passage on Chinese phrasing
摘要:【摘要】 本文提出了一种汉语分词算法。在给定的分词词表的基础上进行汉语分词时,不但能成功切分出分词词表中已有的词,而且能同时自动识别出分词词表中没有的词,即未登录词。与逆向最长匹配法以及其他未登录词识别算法进行的测试比较表明,该分词算法可以有效地解决大多数未登录词的识别问题,并且能减少分词错误,同时对分词算法的效率基本没有影响。Study of self-adaptive matching method in Chinese segmentation based on decided vocabulary Huang Shuiqing, Cheng Chong[Abstract] This p
阅读全文
WEB超链分析算法纵览-PageRank,Authority,Hub,HITS,SALSA,Anchor
摘要:WEB超链分析算法纵览-PageRank,Authority,Hub,HITS,SALSA,Anchor收藏 WEB超链分析算法纵览-PageRank,Authority,Hub,HITS,SALSA,Anchor我倒感觉google确实部分的应用了他的hilltop算法,而且可能google可能也在建立基于词库的算法使用策略。但是他的基础还应该是pagerank算法,hilltop目前应该还是pagerank的补充。当然pagerank已经不再是当年那个干净的pagerank了,google已经增加了许多辅助的算法去除了link farms等基于pagerank的优化的影响。每日更新的新闻以
阅读全文
网页优化-相关度计算与信噪比--guagua513seo(转)
摘要:From: 卢亮的博客:http://www.wespoke.com/archives/001078.html(甚好,收藏之……)你知道google和百度两个关键词的相关度是多少么?--最后我将来回答这个问题通常我们对于文本信息之间得相关性得计算都是采用向量的办法,我在以前的PPT里曾经提到过。然而对于文本信息更深层次的分析不能单纯从字面上分析一篇文章的关键词,更重要的是它隐含的扩展的意义。传统的关于计算文本相关度和【网页和查询的相关性】的计算都是采用匹配的方式进行的,然而这只能是基于字面意义上的统计计算。这里介绍的做法是采用关键词相关性扩展的做法从而得到更加精确的相关度计算。例子:文章 A:
阅读全文
Rete快速匹配算法
摘要:Rete算法首先是由c.L.Forgy在1979年实现的。该算法是一个快速的模式匹配算法,它通过存储关于规则的信息而获得速度。 模式匹配的基本概念 1、可满足规则:一个规则称为可满足的,若规则的每一模式均能在当前工作存储器中找到可匹配的事实,且模式之间的同一变量能取得统一的约束值。形式化地说,规则if P1,P2,…Pm then A1,A2,…An称为可满足的,若存在一个通代σ,使得对每一个模式Pi,在工作存储器中有一个元素Wi满足Piσ=Wi i=1,2,3 …m这里,σ作用在某个模式的结果称为模式实例,σ作用在整个规则的结果称为规则实例。在专家系统中,可满足的规则称为标志规则。 2、冲突
阅读全文
rete算法的原理--匹配过程
摘要:RETE算法是一个用来实现产生式规则系统的高效模式匹配算法。该算法是由卡内基美隆大学的Charles L. Forgy在1974年发表的论文中所阐述的算法。RETE算法提供了专家系统的一个高效实现。规则推理引擎做为产生式系统的一部分,当进行事实的断言时,包含三个阶段:匹配、选择和执行,称做match-select-act cycle。RETE算法可以对匹配阶段进行高效实现,下面从鉴别网络和模式匹配过程两个方面对该算法进行介绍。 鉴别网络(如下图所示):由RETE算法在进行模式匹配时,是根据生成的鉴别网络来进行的。网络中非根结点的类型有1-input结点(也称为alpha结点)和2-input结
阅读全文
[转]各种树:trie树、B树、B-树、B+树、B*树
摘要:红黑树rbtree 二叉排序树map 就是采用红黑树存储的,红黑树(RB Tree)是平衡二叉树,其优点就是树到叶子节点深度一致,查找的效率也就一样,为logN.在实行查找,插入,删除的效率都一致,而当是全部静态数据时,没有太多优势,可能采用hash表各合适。hash_map是一个hash table占用内存更多,查找效率高一些,但是hash的时间比较费时。总 体来说,hash_map 查找速度会比map快,而且查找速度基本和数据数据量大小,属于常数级别;而map的查找速度是log(n)级别。并不一定常数就比log(n)小, hash还有hash函数的耗时,明白了吧,如果你考虑效率,特别是在元
阅读全文
规则引擎研究(一)——Rete算法(5)——一种产生式的优化算法
摘要:(注:本文参考自Toru Ishida. An Optimization Algorithm for Production Systems. IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING, VOL. 6, NO. 4. AUGUST 1994.)产生式系统的优化算法一、 简介产生式系统的系统随着事实数目的增多,性能也跟着下降。因为在大多数的系统中,匹配过程中的连接(join)操作花费的时间与事实数目的平方成正比。另外,不当的条件排列顺序可以产生大量的中间数据,从而导致大量的join操作。为了解决这个问题,ART、YES/OPS以及其他的
阅读全文
规则引擎研究(一)——Rete算法(4)——Rete算法的特例Uni-Rete算法
摘要:(注:本文参考自Tambe, M., Kalp, D., and Rosenbloom,P. (1991). Uni-Rete: Specializing the Rete match algorithm for the unique-attribute representation. Technical Report CMU-CS-91-180,School of Computer Science, Carnegie Mellon University.Tambe, M., Kalp, D., and Rosenbloom,P. S. (1992). An effcient algorith
阅读全文
[转]规则引擎研究(一)——Rete算法(2)
摘要:使用RETE算法的模块系统,有四个入口,分别是添加事实(add-wme)、去除事实(remove-wme)、添加规则(add-production)、去除规则(remove-production)。上面的主要介绍了建立rete网络后添加事实的过程。下面先具体介绍alpha网络的建立和添加事实的过程,然后再介绍另外三个过程。4.4 Alpha网络当事实添加到工作内存后,alpha网络对事实进行必要的类型检测并把事实存放到相应的alpha内存里。有几种方法来寻找合适的alpha内存节点。4.4.1 数据流网络最直接的方式就是使用一个简单的数据流网络。下图就是一个采用数据流网络建立的alpha网络。
阅读全文
[转]规则引擎研究(一)——Rete算法(3)
摘要:4.6 连接节点(Join node)当一个连接节点的alpha内存中加入一个事实时,将引发此连接节点的right activation,当一个连接结点的beta内存中加入一个token时,将引发此连接节点的left activation。连接节点的数据结构包括:指向其alpha内存和beta内存的指针,变量连接检测的说明,指向子节点的指针。当一个连接节点的alpha内存中加入某个事实时,引发right activation。此处,因为right activation 的顺序不同,有可能产生冗余tokens(即在同一个beta内存里存储有两个或以上的相同的token)。结果这个问题的方法有:每
阅读全文
[转]规则引擎研究(一)——Rete算法(1)
摘要:RETE算法介绍一、 rete概述Rete算法是一种前向规则快速匹配算法,其匹配速度与规则数目无关。Rete是拉丁文,对应英文是net,也就是网络。Rete算法通过形成一个rete网络进行模式匹配,利用基于规则的系统的两个特征,即时间冗余性(Temporal redundancy)和结构相似性(structural similarity),提高系统模式匹配效率。二、 相关概念2.1 事实(fact):事实:对象之间及对象属性之间的多元关系。为简单起见,事实用一个三元组来表示:(identifier ^attribute value),例如如下事实:w1:(B1 ^ on B2) w6:(B2
阅读全文
|