随笔分类 - Machine Leaning
摘要:一、TF-IDF 有很多不同的数学公式可以用来计算TF-IDF。这边的例子以上述的数学公式来计算。词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率 (IDF)
阅读全文
摘要:本文整理了关于机器学习分类问题的评价指标——Confusion Matrix、ROC、AUC的概念以及理解。 混淆矩阵 在机器学习领域中,混淆矩阵(confusion matrix)是一种评价分类模型好坏的形象化展示工具。其中,矩阵的每一列表示的是模型预测的样本情况;矩阵的每一行表示的样本的真实情况
阅读全文
摘要:出处:https://www.cnblogs.com/iloveai/p/word2vec.html Distributed Representation Ngram本质上是将词当做一个个孤立的原子单元(atomic unit)去处理的。这种处理方式对应到数学上的形式是一个个离散的one-hot向量
阅读全文
摘要:贝叶斯公式理解: 例子可以看知乎高票:https://www.zhihu.com/question/19725590 可以理解为: 后验概率 = 先验概率 x 调整因子 我们把P(A)称为"先验概率"(Prior probability),即在B事件发生之前,我们对A事件概率的一个判断。 P(A|B
阅读全文

浙公网安备 33010602011771号