摘要:
Solr 4及之前的版本默认采用VSM(向量空间模型)进行相似度的计算(或打分)。之后的版本,则采用Okapi BM25(一种二元独立模型的扩展),属于概率模型。 阅读全文
摘要:
为什么选择结巴分词 分词效率高 词料库构建时使用的是jieba (python) 结巴分词Java版本 下载 编译 注意 solr tokenizer版本 https://github.com/sing1ee/analyzer solr ( solr 5 ) https://github.com/s 阅读全文