02 2018 档案

摘要:机器学习是交叉学科,跨计算机科学和统计学领域。与之类似的研究领域,人或动物的神经科学领域。 数据挖掘、人工智能和机器学习三个学科是交叉的,有重叠的。 阅读全文
posted @ 2018-02-07 12:34 lotushy 阅读(500) 评论(0) 推荐(0)
摘要:Solr 4及之前的版本默认采用VSM(向量空间模型)进行相似度的计算(或打分)。之后的版本,则采用Okapi BM25(一种二元独立模型的扩展),属于概率模型。 阅读全文
posted @ 2018-02-02 17:22 lotushy 阅读(716) 评论(0) 推荐(0)
摘要:为什么选择结巴分词 分词效率高 词料库构建时使用的是jieba (python) 结巴分词Java版本 下载 编译 注意 solr tokenizer版本 https://github.com/sing1ee/analyzer solr ( solr 5 ) https://github.com/s 阅读全文
posted @ 2018-02-02 12:40 lotushy 阅读(2236) 评论(3) 推荐(0)