随笔分类 - 特征工程与求解
摘要:混淆矩阵 准确率(accuracy):分类正确的概率 精确率(precision):真正/判定正(找到的有多少对的) 召回率(recall):真正/实际正(有多少找到的) P-R曲线 对每个分类阈值计算精确率和召回率,绘制联合曲线。曲线包含面积越大越好。 F1 score F1指标是精确率与召回率的
阅读全文
摘要:词袋模型、TF-IDF 词袋模型(BOW,Bag of Word),整段文本为一个向量,向量每一维度表示一个单词,每个数值对应这个词的重要程度。忽略顺序信息。 最简单的词袋模型就是统计每个词出现的次数,作为特征值。 常用 TF-IDF(term frequency–inverse document
阅读全文
浙公网安备 33010602011771号