摘要:在信息论中常用互信息(MI,Mutual Information)来衡量两个词的相关度MI(X,Y)=log2p(x,y)/p(x)p(y)MI越大,表示两个词之间的结合越紧密。当X,Y关联大时,MI(X,Y)大于0;当X与Y关系弱时,MI(X,Y)等于0;当MI(X,Y)小于0时,X与Y称为“互补关系” 这个算式看起来很直观,但计算还是有些麻烦,因为计算概率值p(x),p...
阅读全文
摘要:采用基于Java的开源搜索结果聚合引擎,Carrot2 2.0 中的后缀树算法Carrot2 可以自动的把搜索结果归类到相应的语义类别中,这个功能是通过Carrot2一个现成的组件完成的,除此之外Carrot2 还包括了很多其他的搜索结果聚合聚类算法。因为没有做中文分词,也没有中文的Stopword,所以我们用英文测试,实现代码1SnippetTokenizersnippetTokenizer=n...
阅读全文
摘要:抓取网页,分析得到结果,通用正则表达式匹配函数,其它电视台电视节目请修改URL
阅读全文
摘要:经过几天努力,Nutch终于比较完美的工作了,我有写了一个批处理文件,能够启动Nutch进行Crawl,看着自己搭建的搜索引擎,感觉就是爽现在有不少做搜索垂直引擎的公司,即使像google,百度也都在做,国内也出现了一些小的公司,如找工作的,搜股票的,搜房的,求医问药的,但感觉做的不是特别好。比如搜简历,从理论上,你只要在网上留过资料,就可以被搜到,比如我找张三,结果中出现的第一个应该为张三的简历...
阅读全文
摘要:程序每编译一次,版本号就自动增加1。编译时动态生成运行时获得当前版本号的类
public class Project
{
static public String getBuildVersion() { return "0.0.28"; }
static public String getBuildNumber() {return "28";}
static public String getVersion() {return "0";}
static public String getRevision() {return "0";}
static public String getBuildDate() {return "Wed Sep 13 16:33:20 CST 2006";}
}
阅读全文