摘要: Solr 4及之前的版本默认采用VSM(向量空间模型)进行相似度的计算(或打分)。之后的版本,则采用Okapi BM25(一种二元独立模型的扩展),属于概率模型。 阅读全文
posted @ 2018-02-02 17:22 lotushy 阅读(617) 评论(0) 推荐(0) 编辑
摘要: 为什么选择结巴分词 分词效率高 词料库构建时使用的是jieba (python) 结巴分词Java版本 下载 编译 注意 solr tokenizer版本 https://github.com/sing1ee/analyzer solr ( solr 5 ) https://github.com/s 阅读全文
posted @ 2018-02-02 12:40 lotushy 阅读(2190) 评论(3) 推荐(0) 编辑