随笔分类 -  Machine Leaning

摘要:一、TF-IDF 有很多不同的数学公式可以用来计算TF-IDF。这边的例子以上述的数学公式来计算。词频 (TF) 是一词语出现的次数除以该文件的总词语数。假如一篇文件的总词语数是100个,而词语“母牛”出现了3次,那么“母牛”一词在该文件中的词频就是3/100=0.03。一个计算文件频率 (IDF) 阅读全文
posted @ 2018-11-01 09:25 Kkky 阅读(411) 评论(0) 推荐(0)
摘要:本文整理了关于机器学习分类问题的评价指标——Confusion Matrix、ROC、AUC的概念以及理解。 混淆矩阵 在机器学习领域中,混淆矩阵(confusion matrix)是一种评价分类模型好坏的形象化展示工具。其中,矩阵的每一列表示的是模型预测的样本情况;矩阵的每一行表示的样本的真实情况 阅读全文
posted @ 2018-07-30 10:08 Kkky 阅读(5359) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2018-05-16 20:11 Kkky 阅读(9) 评论(0) 推荐(0)
摘要:出处:https://www.cnblogs.com/iloveai/p/word2vec.html Distributed Representation Ngram本质上是将词当做一个个孤立的原子单元(atomic unit)去处理的。这种处理方式对应到数学上的形式是一个个离散的one-hot向量 阅读全文
posted @ 2018-01-28 22:38 Kkky 阅读(135) 评论(0) 推荐(0)
摘要:贝叶斯公式理解: 例子可以看知乎高票:https://www.zhihu.com/question/19725590 可以理解为: 后验概率 = 先验概率 x 调整因子 我们把P(A)称为"先验概率"(Prior probability),即在B事件发生之前,我们对A事件概率的一个判断。 P(A|B 阅读全文
posted @ 2018-01-17 18:08 Kkky 阅读(237) 评论(0) 推荐(0)