摘要: Google 推出了CodeSearch,可以找一些公开的程式码,今天使用,发现了一些问题和一个分页的Bug
阅读全文
摘要: 在信息论中常用互信息(MI,Mutual Information)来衡量两个词的相关度MI(X,Y)=log2p(x,y)/p(x)p(y)MI越大,表示两个词之间的结合越紧密。当X,Y关联大时,MI(X,Y)大于0;当X与Y关系弱时,MI(X,Y)等于0;当MI(X,Y)小于0时,X与Y称为“互补关系” 这个算式看起来很直观,但计算还是有些麻烦,因为计算概率值p(x),p...
阅读全文
摘要: 首先我们准备一个词典,也就最好的域名列表,我找了最常见的英文单词列表。然后确定一个验证的网站,我选的是中国万网。
阅读全文
摘要: 这个软件功能很强大,能够识别大多数网站的验证码,支持jpg,gif,bmp等多种格式,我们可以利用它实现自动登陆,自动灌水等等。官方网站http://asprise.com/product/ocr/
阅读全文
摘要: QQ允许发送匿名消息,虽然我们可以把它关掉,但默认是允许的,这就给人以可乘之机,这样我们可以利用它来给所有QQ用户群发小广告,传播病毒。
阅读全文
摘要: 采用基于Java的开源搜索结果聚合引擎,Carrot2 2.0 中的后缀树算法Carrot2 可以自动的把搜索结果归类到相应的语义类别中,这个功能是通过Carrot2一个现成的组件完成的,除此之外Carrot2 还包括了很多其他的搜索结果聚合聚类算法。因为没有做中文分词,也没有中文的Stopword,所以我们用英文测试,实现代码1SnippetTokenizersnippetTokenizer=n...
阅读全文
摘要: PowerDesinger 12.1.0.1913破解补丁
阅读全文