随笔分类 -  特征工程与求解

摘要:混淆矩阵 准确率(accuracy):分类正确的概率 精确率(precision):真正/判定正(找到的有多少对的) 召回率(recall):真正/实际正(有多少找到的) P-R曲线 对每个分类阈值计算精确率和召回率,绘制联合曲线。曲线包含面积越大越好。 F1 score F1指标是精确率与召回率的 阅读全文
posted @ 2020-04-28 13:08 肃木易 阅读(430) 评论(0) 推荐(0)
摘要:词袋模型、TF-IDF 词袋模型(BOW,Bag of Word),整段文本为一个向量,向量每一维度表示一个单词,每个数值对应这个词的重要程度。忽略顺序信息。 最简单的词袋模型就是统计每个词出现的次数,作为特征值。 常用 TF-IDF(term frequency–inverse document 阅读全文
posted @ 2020-04-28 12:33 肃木易 阅读(728) 评论(0) 推荐(0)