随笔分类 - machine learning 算法理论
摘要:机器学习
阅读全文
摘要:vsm,熵,tf-idf,余弦,lucene,相似性
阅读全文
摘要:习题 6-19:(信息检索导论) 计算查询digital cameras及文档digital cameras and video cameras的向量空间相似度并 将结果填入表6-1的空列中。假定N=10 000 000(总文档个数=N),对查询及文档中的词项权重(wf对应的列) 采用对数方法计算,查询的权重计算采用idf,而文档归一化采用余弦相似度计算。将 and 看成 是停用词。请在tf列中给出词项的出现频率,并计算出最后的相似度结果。 表6-1 习题6-19中的余弦相似度计算 又题目可知:查询q:digital cameras 某文档:digit...
阅读全文
摘要:因子分析(还没有完全弄透)一、总结:因子分析其实就是降维。 (详细笔记见--斯坦福机器学习讲义: 因子分析笔记) 强烈建议回看因子分析其实就是认为高维样本点实际上是由低维样本 点经过高斯分布、线性变换、误差扰动生成的,因此高维数据可以使用低维来表示。因子分析是对应无监督学习问题,因为用到EM算法,还是有EM算法的,E步都是求出隐性变量Z,而z表示可能的类别,所以凡是有EM算法的,一定是无监督学习.什么情况下用因子分析:之前我们考虑的训练数据中样例x(i)的个数m都远远大于其特征个数n,这样不管是进 行回归、聚类等都没有太大的问题。然而当训练样例个数 m 太小,甚至 m<<n 的时候
阅读全文
摘要:主要是对Ng教授的machinelearning视频学习和参考jerryLead讲义整理(特别鸣谢~):由“判别模型、生成模型与朴素贝叶斯方法 ”一节得知:判别模型求的是条件概率p(y|x),生成模型求的是联合概率p(x,y) .即 =p(x|y) ∗ p(y)常见的判别模型有线性回归、对数回归、线性判别分析、支持向量机、boosting、条件 随机场、神经网络等。常见的生产模型有隐马尔科夫模型、朴素贝叶斯模型、高斯混合模型、LDA、Restricted Boltzmann Machine等。所以这里说的高斯混合模型,朴素贝叶斯模型都是求p(x,y)联合概率的。(下面推导会见原因)套路小结:.
阅读全文
浙公网安备 33010602011771号