随笔分类 -  机器学习

simhash算法原理
摘要:解释一下图片:这里feature可以指一篇文档分词后的某个词,即将文档中的某个词作为一个特征。weight是这个词的权重,这里可以是这个词在这个句子中出现的次数。 这里的hash算法就是传统的hash算法,通过调用一个hash函数实现的。 simhash是为了计算一篇文档之间的相似度存在的,通过si 阅读全文

posted @ 2018-11-30 20:23 *简单就好* 阅读(2208) 评论(0) 推荐(0)

查准率(precision)与查全率(recall)
摘要:混淆矩阵: TP : 实际是正样本, 被识别成正样本(识别正确). FP : 实际是负样本, 被识别成正样本(识别错误). FN : 实际是正样本, 被识别为负样本(识别错误). TN : 实际是负样本, 被识别为负样本(识别正确). P = TP/(TP+FP) ; 查准率(Precision): 阅读全文

posted @ 2018-10-22 20:18 *简单就好* 阅读(802) 评论(0) 推荐(0)

导航