网际大鱼-www.xwin32.cn

MSN: polugen@msn.com
http://www.xwin32.cn
http://www.dot9.cn
http://www.dbclick.com.cn
向IT相关的一切技术冲锋

 

随笔分类 -  JAVA技术

主要跟JAVA相关的技术
关键词与关键词之间的相关度计算
摘要:在信息论中常用互信息(MI,Mutual Information)来衡量两个词的相关度MI(X,Y)=log2p(x,y)/p(x)p(y)MI越大,表示两个词之间的结合越紧密。当X,Y关联大时,MI(X,Y)大于0;当X与Y关系弱时,MI(X,Y)等于0;当MI(X,Y)小于0时,X与Y称为“互补关系” 这个算式看起来很直观,但计算还是有些麻烦,因为计算概率值p(x),p... 阅读全文

posted @ 2006-11-29 12:00 网际大鱼 阅读(9461) 评论(6) 推荐(0)

用开源Carrot2的后缀树算法做Web文本聚类
摘要:采用基于Java的开源搜索结果聚合引擎,Carrot2 2.0 中的后缀树算法Carrot2 可以自动的把搜索结果归类到相应的语义类别中,这个功能是通过Carrot2一个现成的组件完成的,除此之外Carrot2 还包括了很多其他的搜索结果聚合聚类算法。因为没有做中文分词,也没有中文的Stopword,所以我们用英文测试,实现代码1SnippetTokenizersnippetTokenizer=n... 阅读全文

posted @ 2006-11-10 14:51 网际大鱼 阅读(6402) 评论(12) 推荐(0)

正则表达式分析网页,获得中央一电视节目列表
摘要:抓取网页,分析得到结果,通用正则表达式匹配函数,其它电视台电视节目请修改URL 阅读全文

posted @ 2006-10-18 17:47 网际大鱼 阅读(2138) 评论(4) 推荐(0)

垂直搜索初探--Nutch学习
摘要:经过几天努力,Nutch终于比较完美的工作了,我有写了一个批处理文件,能够启动Nutch进行Crawl,看着自己搭建的搜索引擎,感觉就是爽现在有不少做搜索垂直引擎的公司,即使像google,百度也都在做,国内也出现了一些小的公司,如找工作的,搜股票的,搜房的,求医问药的,但感觉做的不是特别好。比如搜简历,从理论上,你只要在网上留过资料,就可以被搜到,比如我找张三,结果中出现的第一个应该为张三的简历... 阅读全文

posted @ 2006-09-19 16:34 网际大鱼 阅读(1788) 评论(2) 推荐(0)

ant实现JAVA程序自动增加程序的版本号
摘要:程序每编译一次,版本号就自动增加1。编译时动态生成运行时获得当前版本号的类 public class Project { static public String getBuildVersion() { return "0.0.28"; } static public String getBuildNumber() {return "28";} static public String getVersion() {return "0";} static public String getRevision() {return "0";} static public String getBuildDate() {return "Wed Sep 13 16:33:20 CST 2006";} } 阅读全文

posted @ 2006-09-13 17:58 网际大鱼 阅读(3968) 评论(0) 推荐(0)

导航