000自然语言 - 随笔分类 - 飞鸟各投林

决策树与随机森林算法

摘要：决策树决策树模型是一种树形结构，基于特征对实例进行分类或回归的过程。即根据某个特征把数据分划分到若干个子区域(子树)，再对子区域递归划分，直到满足某个条件则停止划分并作为叶子节点，不满足条件则继续递归划分。一个简单的决策树分类模型：红色框出的是特征。决策树模型学习过程通常包3个步骤：特征选择、阅读全文

posted @ 2017-03-31 23:34 飞鸟各投林阅读(2531) 评论(0) 推荐(0)

机器学习面试问题汇总

摘要：伪代码实现：LR、梯度下降、最小二乘、KNN、Kmeans; LR,SVM,XGBOOST推公式(手推) LR,SVM,RF,KNN，EM，Adaboost,PageRank，GBDT，Xgboost，HMM，DNN，推荐算法，聚类算法，等等机器学习领域的算法基本知识： 1）监督与非监督区别；是阅读全文

posted @ 2017-03-31 23:31 飞鸟各投林阅读(9470) 评论(0) 推荐(0)

RF是如何工作的？

摘要：随机森林的发展史谈及随机森林算法的产生与发展，我们必须回溯到20世纪80年代。可以说，该算法是Leo Breiman, Adele Cutler, Ho Tin Kam, Dietterich, Amit和Geman这几位大师呕心沥血的共同结晶，他们中的每个人都对随机森林算法的早期发展作出了重要的阅读全文

posted @ 2017-03-31 23:05 飞鸟各投林阅读(423) 评论(0) 推荐(0)

RF的优缺点

摘要：随机森林有什么优点，如： a. 对于很多数据集表现良好，精确度比较高； b. 不容易过拟合； c. 可以得到变量的重要性排序； d. 既能处理离散型数据，也能处理连续型数据，且不需要进行归一化处理；（美团被深入问到） e. 能够很好的处理缺失数据； f. 容易并行化关于材料再说句题外话，我之前是阅读全文

posted @ 2017-03-31 22:55 飞鸟各投林阅读(1319) 评论(0) 推荐(0)

国内NLP的那些人那些会

摘要：统计学和语言学专家都列在一起了，没有区分。1，黄昌宁，1937年生于广东，1955年考入清华大学电机系，1961年毕业并留校任教至博士生导师， 1983-1984年赴美国耶鲁大学进修，1986-1987年曾在香港理工大学任教，1999年4月加入微软中国研究院任主任研究员。中国计算机自然语言处理领域的阅读全文

posted @ 2017-03-31 22:25 飞鸟各投林阅读(537) 评论(0) 推荐(0)

关于LDA的gibbs采样，为什么可以获得正确的样本？

摘要：算法里面是随机初始了一个分布，然后进行采样，然后根据每次采样的结果去更新分布，之后接着采样直到收敛。 1.首先明确一下MCMC方法。当我们面对一个未知或者复杂的分布时，我们经常使用MCMC方法来进行分布采样。而采样的目的是得到这个分布的样本，通过这些样本，我们就能明确出该分布的具体结构。所以MCM 阅读全文

posted @ 2017-03-30 17:13 飞鸟各投林阅读(991) 评论(0) 推荐(0)

LDA算法里面Dirichlet分布的两个参数alpha和beta怎样确定？

摘要：本文参考自：https://www.zhihu.com/question/21692336/answer/19387415 方法一： alpha 是选择为 50/ k, 其中k是你选择的topic数，beta一般选为0.01吧，，这都是经验值，貌似效果比较好，收敛比较快一点。。有一篇paper，阅读全文

posted @ 2017-03-30 17:08 飞鸟各投林阅读(5072) 评论(0) 推荐(0)

如何确定LDA的主题个数

摘要：本文参考自：https://www.zhihu.com/question/32286630 LDA中topic个数的确定是一个困难的问题。当各个topic之间的相似度的最小的时候，就可以算是找到了合适的topic个数。参考一种基于密度的自适应最优LDA模型选择方法，简略过程如下：选取初始K值阅读全文

posted @ 2017-03-30 16:55 飞鸟各投林阅读(4880) 评论(0) 推荐(0)

SMO算法精解

摘要：本文参考自：https://www.zhihu.com/question/40546280/answer/88539689 解决svm首先将原始问题转化到对偶问题，而对偶问题则是一个凸二次规划问题，理论上你用任何一个解决凸二次规划的软件包都可以解决，但是这样通常来说很慢，大数据情况下尤其不实际， s 阅读全文

posted @ 2017-03-28 19:23 飞鸟各投林阅读(3541) 评论(0) 推荐(0)

奇异值与主成分分析（PCA）

摘要：主成分分析在上一节里面也讲了一些，这里主要谈谈如何用SVD去解PCA的问题。PCA的问题其实是一个基的变换，使得变换后的数据有着最大的方差。方差的大小描述的是一个变量的信息量，我们在讲一个东西的稳定性的时候，往往说要减小方差，如果一个模型的方差很大，那就说明模型不稳定了。但是对于我们用于机器学习的数阅读全文

posted @ 2017-03-28 01:41 飞鸟各投林阅读(688) 评论(0) 推荐(0)

随机深林和GBDT

摘要：随机森林(Random Forest): 随机森林是一个最近比较火的算法，它有很多的优点：在数据集上表现良好在当前的很多数据集上，相对其他算法有着很大的优势它能够处理很高维度（feature很多）的数据，并且不用做特征选择在训练完后，它能够给出哪些feature比较重要在创建随机森林的时候阅读全文

posted @ 2017-03-28 01:36 飞鸟各投林阅读(267) 评论(0) 推荐(0)

最大熵模型

摘要：我的理解：在限制的条件下，根据已知情况求解未知情况，最优解的选择就是使得未知的熵最大的那个概率我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里，这样可以降低风险。在信息处理中，这个原理同样适用。在数学上，这个原理称为最大熵原理(the maximum entropy principle)。让我们阅读全文

posted @ 2017-03-27 22:40 飞鸟各投林阅读(407) 评论(0) 推荐(0)

一文搞懂HMM（隐马尔可夫模型）

摘要：本文转自于：http://www.cnblogs.com/skyme/p/4651331.html 隐马尔可夫模型（Hidden Markov Model，HMM）是统计模型，它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析阅读全文

posted @ 2017-03-27 22:35 飞鸟各投林阅读(841) 评论(0) 推荐(0)

HMM、MEMM、CRF模型比较和标注偏置问题(Label Bias Problem)

摘要：本文转自：http://www.cnblogs.com/syx-1987/p/4077325.html 路径1-1-1-1的概率：0.4*0.45*0.5=0.09 路径2-2-2-2的概率:0.018 路径1-2-1-2:0.06 路径1-1-2-2:0.066 由此可得最优路径为1-1-1-1 阅读全文

posted @ 2017-03-26 22:52 飞鸟各投林阅读(1076) 评论(1) 推荐(0)

HMM,MEMM,CRF模型的比较

摘要：本文参考自：http://blog.csdn.net/happyzhouxiaopei/article/details/7960876 这三个模型都可以用来做序列标注模型。但是其各自有自身的特点，HMM模型是对转移概率和表现概率直接建模，统计共现概率。而MEMM模型是对转移概率和表现概率建立联合概阅读全文

posted @ 2017-03-26 22:46 飞鸟各投林阅读(18445) 评论(0) 推荐(0)

最大熵模型---关毅老师的课件

摘要：最大熵模型最大熵原理举例阅读全文

posted @ 2017-03-26 21:15 飞鸟各投林阅读(271) 评论(0) 推荐(0)

盘点一下数据平滑算法

摘要：本文参考来自于：http://blog.csdn.net/wwjiang_ustc/article/details/50732211 在自然语言处理中，经常要计算单词序列（句子）出现的概率估计。我们知道，算法在训练时，语料库不可能包含所有可能出现的序列。因此，为了防止对训练样本中未出现的新序列概率阅读全文

posted @ 2017-03-26 20:55 飞鸟各投林阅读(3424) 评论(0) 推荐(1)

通俗的解释交叉熵与相对熵

摘要：一、交叉熵 (1):离散表示： (2):连续表示：两项中 H(p)是 p的信息熵，后者是p和q的相对熵；二、相对熵 (1):离散表示： (2):连续表示：三、二者关系阅读全文

posted @ 2017-03-26 20:46 飞鸟各投林阅读(416) 评论(0) 推荐(0)

飞鸟各投林

导航

公告

随笔分类 - 000自然语言

推荐算法