随笔分类 - 特征工程
摘要:1. IG(Information Gain,信息增益) 信息增益,某个特征的信息增益就是指有该特征和没有该特征时,为整个分类系统所能提供的信息量的差别,即信息增益就是不考虑任何特征时文档的熵和考虑该特征后文档的熵的差值。 其中表示类文档在语料中出现的概率,表示语料中包含特征的文档的概率,表示文档包
阅读全文
摘要:1. TF-IDF TF-IDF是一种统计方法,用以评估一个词对一篇文章或语料库中一篇文章的重要性。字词的重要性随着它在文中出现的次数成正比,但同时会随着它在语料库中出现的频率成反比下降。 2. TF-IDF使用场景 TF-IDF加权的各种形式常被用搜索引擎应用,作为文件与用户查询之间相关程度的度量
阅读全文
摘要:1. 处理计数 1.1 二值化 1.2 区间量化(分箱) 固定宽度分箱:通过固定宽度分箱,每个分箱中会包含一个具体范围内的数值。这些范围可以人工定制,也可以通过自动分段来生成,它们可以是线性的、也可以是指数性的。 分位数分箱:(分位数是可以将数据分为相等的诺干份数的值。)例如中位数、四分位数、十分位
阅读全文
摘要:1. 特征定义 为了提取知识和做出预测,机器学习使用数学模型来拟合数据。这些模型将特征作为输入。特征就是原始数据某个方面的数值表示。在机器学习流程中,特征是数据和模型之间的纽带。特征工程是指从原始数据中提取特征并将其转换为适合机器学习模型的格式。它是机器学习流程中一个极其关键的环节,因为正确的特征可
阅读全文

浙公网安备 33010602011771号