飞鸟各投林

导航

随笔分类 -  000自然语言

推荐算法
摘要:目前,主要的推荐方法包括:基于内容的推荐、协同过滤推荐、基于关联规则的推荐、基于效用的推荐、基于知识的推荐和组合推荐。 基于内容的推荐 基于内容的推荐(Content-based Recommendation)是信息过滤技术的延续与发展,它是建立在项目的内容信息上作出推荐的,而不需要依据用户对项目的 阅读全文

posted @ 2017-03-31 23:43 飞鸟各投林 阅读(1015) 评论(1) 推荐(0)

决策树与随机森林算法
摘要:决策树 决策树模型是一种树形结构,基于特征对实例进行分类或回归的过程。即根据某个特征把数据分划分到若干个子区域(子树),再对子区域递归划分,直到满足某个条件则停止划分并作为叶子节点,不满足条件则继续递归划分。 一个简单的决策树分类模型:红色框出的是特征。 决策树模型学习过程通常包3个步骤:特征选择、 阅读全文

posted @ 2017-03-31 23:34 飞鸟各投林 阅读(2529) 评论(0) 推荐(0)

机器学习面试问题汇总
摘要:伪代码实现:LR、梯度下降、最小二乘、KNN、Kmeans; LR,SVM,XGBOOST推公式(手推) LR,SVM,RF,KNN,EM,Adaboost,PageRank,GBDT,Xgboost,HMM,DNN,推荐算法,聚类算法,等等机器学习领域的算法 基本知识: 1)监督与非监督区别; 是 阅读全文

posted @ 2017-03-31 23:31 飞鸟各投林 阅读(9468) 评论(0) 推荐(0)

RF是如何工作的?
摘要:随机森林的发展史 谈及随机森林算法的产生与发展,我们必须回溯到20世纪80年代。可以说,该算法是Leo Breiman, Adele Cutler, Ho Tin Kam, Dietterich, Amit和Geman这几位大师呕心沥血的共同结晶,他们中的每个人都对随机森林算法的早期发展作出了重要的 阅读全文

posted @ 2017-03-31 23:05 飞鸟各投林 阅读(423) 评论(0) 推荐(0)

RF的优缺点
摘要:随机森林有什么优点,如: a. 对于很多数据集表现良好,精确度比较高; b. 不容易过拟合; c. 可以得到变量的重要性排序; d. 既能处理离散型数据,也能处理连续型数据,且不需要进行归一化处理; (美团被深入问到) e. 能够很好的处理缺失数据; f. 容易并行化 关于材料再说句题外话,我之前是 阅读全文

posted @ 2017-03-31 22:55 飞鸟各投林 阅读(1318) 评论(0) 推荐(0)

国内NLP的那些人那些会
摘要:统计学和语言学专家都列在一起了,没有区分。1,黄昌宁,1937年生于广东,1955年考入清华大学电机系,1961年毕业并留校任教至博士生导师, 1983-1984年赴美国耶鲁大学进修,1986-1987年曾在香港理工大学任教,1999年4月加入微软中国研究院任主任研究员。中国计算机自然语言处理领域的 阅读全文

posted @ 2017-03-31 22:25 飞鸟各投林 阅读(526) 评论(0) 推荐(0)

关于LDA的gibbs采样,为什么可以获得正确的样本?
摘要:算法里面是随机初始了一个分布,然后进行采样,然后根据每次采样的结果去更新分布,之后接着采样直到收敛。 1.首先明确一下MCMC方法。 当我们面对一个未知或者复杂的分布时,我们经常使用MCMC方法来进行分布采样。而采样的目的是得到这个分布的样本,通过这些样本,我们就能明确出该分布的具体结构。所以MCM 阅读全文

posted @ 2017-03-30 17:13 飞鸟各投林 阅读(988) 评论(0) 推荐(0)

LDA算法里面Dirichlet分布的两个参数alpha和beta怎样确定?
摘要:本文参考自:https://www.zhihu.com/question/21692336/answer/19387415 方法一: alpha 是 选择为 50/ k, 其中k是你选择的topic数,beta一般选为0.01吧,,这都是经验值,貌似效果比较好,收敛比较快一点。。有一篇paper, 阅读全文

posted @ 2017-03-30 17:08 飞鸟各投林 阅读(5060) 评论(0) 推荐(0)

如何确定LDA的主题个数
摘要:本文参考自:https://www.zhihu.com/question/32286630 LDA中topic个数的确定是一个困难的问题。 当各个topic之间的相似度的最小的时候,就可以算是找到了合适的topic个数。 参考一种基于密度的自适应最优LDA模型选择方法 ,简略过程如下: 选取初始K值 阅读全文

posted @ 2017-03-30 16:55 飞鸟各投林 阅读(4862) 评论(0) 推荐(0)

SMO算法精解
摘要:本文参考自:https://www.zhihu.com/question/40546280/answer/88539689 解决svm首先将原始问题转化到对偶问题,而对偶问题则是一个凸二次规划问题,理论上你用任何一个解决凸二次规划的软件包都可以解决,但是这样通常来说很慢,大数据情况下尤其不实际, s 阅读全文

posted @ 2017-03-28 19:23 飞鸟各投林 阅读(3534) 评论(0) 推荐(0)

奇异值与主成分分析(PCA)
摘要:主成分分析在上一节里面也讲了一些,这里主要谈谈如何用SVD去解PCA的问题。PCA的问题其实是一个基的变换,使得变换后的数据有着最大的方差。方差的大小描述的是一个变量的信息量,我们在讲一个东西的稳定性的时候,往往说要减小方差,如果一个模型的方差很大,那就说明模型不稳定了。但是对于我们用于机器学习的数 阅读全文

posted @ 2017-03-28 01:41 飞鸟各投林 阅读(684) 评论(0) 推荐(0)

随机深林和GBDT
摘要:随机森林(Random Forest): 随机森林是一个最近比较火的算法,它有很多的优点: 在数据集上表现良好 在当前的很多数据集上,相对其他算法有着很大的优势 它能够处理很高维度(feature很多)的数据,并且不用做特征选择 在训练完后,它能够给出哪些feature比较重要 在创建随机森林的时候 阅读全文

posted @ 2017-03-28 01:36 飞鸟各投林 阅读(263) 评论(0) 推荐(0)

最大熵模型
摘要:我的理解:在限制的条件下,根据已知情况求解未知情况,最优解的选择就是使得未知的熵最大的那个概率 我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理(the maximum entropy principle)。 让我们 阅读全文

posted @ 2017-03-27 22:40 飞鸟各投林 阅读(406) 评论(0) 推荐(0)

一文搞懂HMM(隐马尔可夫模型)
摘要:本文转自于:http://www.cnblogs.com/skyme/p/4651331.html 隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析 阅读全文

posted @ 2017-03-27 22:35 飞鸟各投林 阅读(776) 评论(0) 推荐(0)

HMM、MEMM、CRF模型比较和标注偏置问题(Label Bias Problem)
摘要:本文转自:http://www.cnblogs.com/syx-1987/p/4077325.html 路径1-1-1-1的概率:0.4*0.45*0.5=0.09 路径2-2-2-2的概率:0.018 路径1-2-1-2:0.06 路径1-1-2-2:0.066 由此可得最优路径为1-1-1-1 阅读全文

posted @ 2017-03-26 22:52 飞鸟各投林 阅读(1070) 评论(1) 推荐(0)

HMM,MEMM,CRF模型的比较
摘要:本文参考自:http://blog.csdn.net/happyzhouxiaopei/article/details/7960876 这三个模型都可以用来做序列标注模型。但是其各自有自身的特点,HMM模型是对转移概率和表现概率直接建模,统计共现概率。而MEMM模型是对转移 概率和表现概率建立联合概 阅读全文

posted @ 2017-03-26 22:46 飞鸟各投林 阅读(18428) 评论(0) 推荐(0)

最大熵模型---关毅老师的课件
摘要:最大熵模型 最大熵原理 举例 阅读全文

posted @ 2017-03-26 21:15 飞鸟各投林 阅读(271) 评论(0) 推荐(0)

盘点一下数据平滑算法
摘要:本文参考来自于:http://blog.csdn.net/wwjiang_ustc/article/details/50732211 在自然语言处理中,经常要计算单词序列(句子)出现的概率估计。我们知道,算法在训练时,语料库不可能包含所有可能出现的序列。 因此,为了防止对训练样本中未出现的新序列概率 阅读全文

posted @ 2017-03-26 20:55 飞鸟各投林 阅读(3419) 评论(0) 推荐(1)

通俗的解释交叉熵与相对熵
摘要:一、交叉熵 (1):离散表示: (2):连续表示: 两项中 H(p)是 p的信息熵,后者是p和q的相对熵; 二、相对熵 (1):离散表示: (2):连续表示: 三、二者关系 阅读全文

posted @ 2017-03-26 20:46 飞鸟各投林 阅读(415) 评论(0) 推荐(0)