飞鸟各投林

导航

03 2017 档案

c++中字符串反转的3种方法
摘要:第一种:使用algorithm中的reverse函数 第二种:自己编写 第三种:使用string.h中的strrev函数 阅读全文

posted @ 2017-03-31 23:59 飞鸟各投林 阅读(14980) 评论(0) 推荐(1)

机器学习面试问题9
摘要:图模型 图模型是一类用图来表示概率分布的一类技术的总称。 它的主要优点是把概率分布中的条件独立用图的形式表达出来,从而可以把一个概率分布(特定的,和应用相关的)表示为很多因子的乘积,从而简化在边缘化一个概率分布的计算,这里的边缘化指的是给定n个变量的概率分布,求取其中m个变量的概率分布的计算(m小于 阅读全文

posted @ 2017-03-31 23:49 飞鸟各投林 阅读(245) 评论(0) 推荐(0)

机器学习面试问题10
摘要:线性分类器与非线性分类器的区别及优势 线性分类器:模型是参数的线性函数,分类平面是(超)平面; 非线性分类器:模型分界面可以是曲面或者超平面的组合。 典型的线性分类器有感知机,LDA,逻辑斯特回归,SVM(线性核); 典型的非线性分类器有朴素贝叶斯(有文章说这个本质是线性的,http://datau 阅读全文

posted @ 2017-03-31 23:49 飞鸟各投林 阅读(303) 评论(0) 推荐(0)

机器学习面试问题7
摘要:为什么要用逻辑回归 逻辑回归主要解决线性可分问题,模型简单,易于理解和实现,很适合用来学习大数据的问题。另外,逻辑回归做在线学习比较容易,处理速度也快。 SVM和LR的区别: 两种方法都是常见的分类算法,从目标函数来看,区别在于逻辑回归采用的是logistical loss,svm采用的是hinge 阅读全文

posted @ 2017-03-31 23:48 飞鸟各投林 阅读(324) 评论(0) 推荐(0)

机器学习面试问题6
摘要:以下内容接机器学习面试问题5. 神经网络参数相关 参数的范围 目前还没有明确的参数范围,只有个人总结性的原则。如下: 网络参数确定原则: ①、网络节点 网络输入层神经元节点数就是系统的特征因子(自变量)个数,输出层神经元节点数就是系统目标个数。隐层节点选按经验选取,一般设为输入层节点数的75%。如果 阅读全文

posted @ 2017-03-31 23:47 飞鸟各投林 阅读(397) 评论(0) 推荐(0)

机器学习面试问题5
摘要:常见问题 和svm相关的 如何组织训练数据 1)将数据分开为训练集、测试集; 2)对训练集寻优,构建好决策函数,训练分类器; 3)用测试集验证准确率,达到满足需要的准确率后,就可以用新数据分类。 如何调节惩罚因子 惩罚因子(参数C):为了使用松弛变量才引入的,表示对离群点的重视程度。C越大越重视,越 阅读全文

posted @ 2017-03-31 23:46 飞鸟各投林 阅读(366) 评论(0) 推荐(0)

机器学习面试问题4
摘要:以下内容接机器学习面试问题3。内容比较粗略,细化会在后期完成,敬请期待。 神经网络 神经网络算法涉及的知识点内容较多,需要深入专研,可参考: http://max.book118.com/html/2016/0303/36785438.shtm BP网络的四个学习过程:(δ规则) 1)模式顺传播 , 阅读全文

posted @ 2017-03-31 23:46 飞鸟各投林 阅读(267) 评论(0) 推荐(0)

机器学习面试问题3
摘要:以下内容承接机器学习相关面试2。 Apriori Apriori算法是一种关联规则的基本算法,是挖掘关联规则的频繁项集算法,也称“购物篮分析”算法,是“啤酒与尿布”案例的代表。 算法步骤: 1)依据支持度找出所有频繁项集。 Apriori算法是发现频繁项集的一种方法。Apriori算法的两个输入参数 阅读全文

posted @ 2017-03-31 23:45 飞鸟各投林 阅读(401) 评论(0) 推荐(0)

机器学习面试问题2
摘要:算法原理 LR logistic(逻辑回归)是一种广义线性回归分析模型,是一种分类算法。 通过函数L将w‘x+b对应一个隐状态p,p =L(w‘x+b),然后根据p 与1-p的大小决定因变量的值。L是logistic函数. 该模型是典型的数学模型,它服从逻辑斯蒂分布。 二项逻辑斯蒂回归模型是如下的条 阅读全文

posted @ 2017-03-31 23:44 飞鸟各投林 阅读(227) 评论(0) 推荐(0)

机器学习面试问题1
摘要:本机器学习面试问题系列博客共有10章,从1到10分别总结了机器学习面试的经典常用问题,也是阿里面试常用考题,系小编呕心沥血之作,希望大家能够在参考之余和小编积极交流,欢迎评论,欢迎来踩!希望能对和小编一样的机器学习爱好者提供实质性帮助。 基本知识 监督与非监督的区别 监督:输入的数据有明确的标识,可 阅读全文

posted @ 2017-03-31 23:44 飞鸟各投林 阅读(329) 评论(0) 推荐(0)

推荐算法
摘要:目前,主要的推荐方法包括:基于内容的推荐、协同过滤推荐、基于关联规则的推荐、基于效用的推荐、基于知识的推荐和组合推荐。 基于内容的推荐 基于内容的推荐(Content-based Recommendation)是信息过滤技术的延续与发展,它是建立在项目的内容信息上作出推荐的,而不需要依据用户对项目的 阅读全文

posted @ 2017-03-31 23:43 飞鸟各投林 阅读(1021) 评论(1) 推荐(0)

机器学习面试问题8
摘要:userCF和itemCF在实际当中如何使用,提供具体操作,以及它们的优势(推荐系统) 基于用户的协同过滤算法UserCF 基于用户的协同过滤,通过不同用户对物品的评分来评测用户之间的相似性,基于用户间的相似性做出推荐。 简单来讲就是:给用户推荐和他兴趣相似的其他用户喜欢的物品。 基于UserCF的 阅读全文

posted @ 2017-03-31 23:40 飞鸟各投林 阅读(816) 评论(0) 推荐(0)

决策树与随机森林算法
摘要:决策树 决策树模型是一种树形结构,基于特征对实例进行分类或回归的过程。即根据某个特征把数据分划分到若干个子区域(子树),再对子区域递归划分,直到满足某个条件则停止划分并作为叶子节点,不满足条件则继续递归划分。 一个简单的决策树分类模型:红色框出的是特征。 决策树模型学习过程通常包3个步骤:特征选择、 阅读全文

posted @ 2017-03-31 23:34 飞鸟各投林 阅读(2531) 评论(0) 推荐(0)

机器学习面试问题汇总
摘要:伪代码实现:LR、梯度下降、最小二乘、KNN、Kmeans; LR,SVM,XGBOOST推公式(手推) LR,SVM,RF,KNN,EM,Adaboost,PageRank,GBDT,Xgboost,HMM,DNN,推荐算法,聚类算法,等等机器学习领域的算法 基本知识: 1)监督与非监督区别; 是 阅读全文

posted @ 2017-03-31 23:31 飞鸟各投林 阅读(9470) 评论(0) 推荐(0)

RF是如何工作的?
摘要:随机森林的发展史 谈及随机森林算法的产生与发展,我们必须回溯到20世纪80年代。可以说,该算法是Leo Breiman, Adele Cutler, Ho Tin Kam, Dietterich, Amit和Geman这几位大师呕心沥血的共同结晶,他们中的每个人都对随机森林算法的早期发展作出了重要的 阅读全文

posted @ 2017-03-31 23:05 飞鸟各投林 阅读(423) 评论(0) 推荐(0)

RF的优缺点
摘要:随机森林有什么优点,如: a. 对于很多数据集表现良好,精确度比较高; b. 不容易过拟合; c. 可以得到变量的重要性排序; d. 既能处理离散型数据,也能处理连续型数据,且不需要进行归一化处理; (美团被深入问到) e. 能够很好的处理缺失数据; f. 容易并行化 关于材料再说句题外话,我之前是 阅读全文

posted @ 2017-03-31 22:55 飞鸟各投林 阅读(1319) 评论(0) 推荐(0)

国内NLP的那些人那些会
摘要:统计学和语言学专家都列在一起了,没有区分。1,黄昌宁,1937年生于广东,1955年考入清华大学电机系,1961年毕业并留校任教至博士生导师, 1983-1984年赴美国耶鲁大学进修,1986-1987年曾在香港理工大学任教,1999年4月加入微软中国研究院任主任研究员。中国计算机自然语言处理领域的 阅读全文

posted @ 2017-03-31 22:25 飞鸟各投林 阅读(537) 评论(0) 推荐(0)

B-、B+、B*树
摘要:B-树:多路搜索树,每个结点存储M/2到M个关键字,非叶子结点存储指向关键字范围的子结点;所有关键字在整颗树中出现,且只出现一次,非叶子结点可以命中; B+树:在B-树基础上,为叶子结点增加链表指针,所有关键字都在叶子结点中出现,非叶子结点作为叶子结点的索引;B+树总是到叶子结点才命中; B*树:  阅读全文

posted @ 2017-03-31 22:17 飞鸟各投林 阅读(221) 评论(0) 推荐(0)

关于LDA的gibbs采样,为什么可以获得正确的样本?
摘要:算法里面是随机初始了一个分布,然后进行采样,然后根据每次采样的结果去更新分布,之后接着采样直到收敛。 1.首先明确一下MCMC方法。 当我们面对一个未知或者复杂的分布时,我们经常使用MCMC方法来进行分布采样。而采样的目的是得到这个分布的样本,通过这些样本,我们就能明确出该分布的具体结构。所以MCM 阅读全文

posted @ 2017-03-30 17:13 飞鸟各投林 阅读(991) 评论(0) 推荐(0)

LDA算法里面Dirichlet分布的两个参数alpha和beta怎样确定?
摘要:本文参考自:https://www.zhihu.com/question/21692336/answer/19387415 方法一: alpha 是 选择为 50/ k, 其中k是你选择的topic数,beta一般选为0.01吧,,这都是经验值,貌似效果比较好,收敛比较快一点。。有一篇paper, 阅读全文

posted @ 2017-03-30 17:08 飞鸟各投林 阅读(5072) 评论(0) 推荐(0)

如何确定LDA的主题个数
摘要:本文参考自:https://www.zhihu.com/question/32286630 LDA中topic个数的确定是一个困难的问题。 当各个topic之间的相似度的最小的时候,就可以算是找到了合适的topic个数。 参考一种基于密度的自适应最优LDA模型选择方法 ,简略过程如下: 选取初始K值 阅读全文

posted @ 2017-03-30 16:55 飞鸟各投林 阅读(4880) 评论(0) 推荐(0)

SMO算法精解
摘要:本文参考自:https://www.zhihu.com/question/40546280/answer/88539689 解决svm首先将原始问题转化到对偶问题,而对偶问题则是一个凸二次规划问题,理论上你用任何一个解决凸二次规划的软件包都可以解决,但是这样通常来说很慢,大数据情况下尤其不实际, s 阅读全文

posted @ 2017-03-28 19:23 飞鸟各投林 阅读(3541) 评论(0) 推荐(0)

奇异值与主成分分析(PCA)
摘要:主成分分析在上一节里面也讲了一些,这里主要谈谈如何用SVD去解PCA的问题。PCA的问题其实是一个基的变换,使得变换后的数据有着最大的方差。方差的大小描述的是一个变量的信息量,我们在讲一个东西的稳定性的时候,往往说要减小方差,如果一个模型的方差很大,那就说明模型不稳定了。但是对于我们用于机器学习的数 阅读全文

posted @ 2017-03-28 01:41 飞鸟各投林 阅读(688) 评论(0) 推荐(0)

随机深林和GBDT
摘要:随机森林(Random Forest): 随机森林是一个最近比较火的算法,它有很多的优点: 在数据集上表现良好 在当前的很多数据集上,相对其他算法有着很大的优势 它能够处理很高维度(feature很多)的数据,并且不用做特征选择 在训练完后,它能够给出哪些feature比较重要 在创建随机森林的时候 阅读全文

posted @ 2017-03-28 01:36 飞鸟各投林 阅读(267) 评论(0) 推荐(0)

最大熵模型
摘要:我的理解:在限制的条件下,根据已知情况求解未知情况,最优解的选择就是使得未知的熵最大的那个概率 我们在投资时常常讲不要把所有的鸡蛋放在一个篮子里,这样可以降低风险。在信息处理中,这个原理同样适用。在数学上,这个原理称为最大熵原理(the maximum entropy principle)。 让我们 阅读全文

posted @ 2017-03-27 22:40 飞鸟各投林 阅读(407) 评论(0) 推荐(0)

一文搞懂HMM(隐马尔可夫模型)
摘要:本文转自于:http://www.cnblogs.com/skyme/p/4651331.html 隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析 阅读全文

posted @ 2017-03-27 22:35 飞鸟各投林 阅读(825) 评论(0) 推荐(0)

HMM、MEMM、CRF模型比较和标注偏置问题(Label Bias Problem)
摘要:本文转自:http://www.cnblogs.com/syx-1987/p/4077325.html 路径1-1-1-1的概率:0.4*0.45*0.5=0.09 路径2-2-2-2的概率:0.018 路径1-2-1-2:0.06 路径1-1-2-2:0.066 由此可得最优路径为1-1-1-1 阅读全文

posted @ 2017-03-26 22:52 飞鸟各投林 阅读(1075) 评论(1) 推荐(0)

HMM,MEMM,CRF模型的比较
摘要:本文参考自:http://blog.csdn.net/happyzhouxiaopei/article/details/7960876 这三个模型都可以用来做序列标注模型。但是其各自有自身的特点,HMM模型是对转移概率和表现概率直接建模,统计共现概率。而MEMM模型是对转移 概率和表现概率建立联合概 阅读全文

posted @ 2017-03-26 22:46 飞鸟各投林 阅读(18444) 评论(0) 推荐(0)

最大熵模型---关毅老师的课件
摘要:最大熵模型 最大熵原理 举例 阅读全文

posted @ 2017-03-26 21:15 飞鸟各投林 阅读(271) 评论(0) 推荐(0)

盘点一下数据平滑算法
摘要:本文参考来自于:http://blog.csdn.net/wwjiang_ustc/article/details/50732211 在自然语言处理中,经常要计算单词序列(句子)出现的概率估计。我们知道,算法在训练时,语料库不可能包含所有可能出现的序列。 因此,为了防止对训练样本中未出现的新序列概率 阅读全文

posted @ 2017-03-26 20:55 飞鸟各投林 阅读(3424) 评论(0) 推荐(1)

通俗的解释交叉熵与相对熵
摘要:一、交叉熵 (1):离散表示: (2):连续表示: 两项中 H(p)是 p的信息熵,后者是p和q的相对熵; 二、相对熵 (1):离散表示: (2):连续表示: 三、二者关系 阅读全文

posted @ 2017-03-26 20:46 飞鸟各投林 阅读(416) 评论(0) 推荐(0)

编辑距离问题
摘要:本文来自于:http://www.cnblogs.com/biyeymyhjob/archive/2012/09/28/2707343.html 编辑距离,又称Levenshtein距离,是指两个字串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个 阅读全文

posted @ 2017-03-24 00:12 飞鸟各投林 阅读(207) 评论(0) 推荐(0)

理解动态规划、分治法和贪心法
摘要:本文转自:http://www.cnblogs.com/airwindow/p/4067902.html http://hi.baidu.com/35661327/blog/item/d5463e17f1e8d011972b439c.html 动态规划、分治法和贪心法都是利用求解子问题,而后利用子问 阅读全文

posted @ 2017-03-23 23:12 飞鸟各投林 阅读(789) 评论(0) 推荐(0)

2017 校招华为上机题
摘要:1. 给定一个字符串,把字符串内的字母转换成该字母的下一个字母, a 换成b,z 换成a,Z 换成A,如aBf 转换成bCg,字符串内的其他字符不改变,给定函数,编写函数void Stringchang(const char*inpu,char*output)其中input 是输入字符串, outp 阅读全文

posted @ 2017-03-23 21:53 飞鸟各投林 阅读(220) 评论(0) 推荐(0)

C++笔记
摘要:C、C++区别: C包含char,scanf()和gets()函数,#include <cstring>,<string.h>,#<stdio.h> C++包含string,cin,对应的头文件是#include <string>,#include<iostream> C++里的char和strin 阅读全文

posted @ 2017-03-23 20:43 飞鸟各投林 阅读(211) 评论(0) 推荐(0)