文章分类 -  必备

摘要: 阅读全文
posted @ 2020-05-04 22:34 CeasonCing 阅读(65) 评论(0) 推荐(0)
摘要:机器学习常见问题 1) 几种模型( SVM,LR,GBDT,EM )的原理以及公式推导; 2) RF,GBDT 的区别; GBDT,XgBoost的区别 (烂大街的问题最好从底层原理去分析回答); 3) 决策树处理连续值的方法; 4) 特征选择的方法; 5) 过拟合的解决方法; 6) K-means 阅读全文
posted @ 2020-05-04 14:01 CeasonCing 阅读(237) 评论(0) 推荐(0)
摘要:特征选择是一个重要的数据预处理过程,在现实机器学习任务中,获得数据之后通常先进行特征选择,此后在训练学习器,如下图所示: 进行特征选择有两个很重要的原因: 避免维数灾难:能剔除不相关(irrelevant)或冗余(redundant )的特征,从而达到减少特征个数,提高模型精确度,减少运行时间的目的 阅读全文
posted @ 2020-05-04 08:24 CeasonCing 阅读(545) 评论(0) 推荐(0)
摘要:Random Forest: 主要运用到的方法是bagging,采用Bootstrap的随机有放回的抽样,抽样出N份数据集,训练出N个决策树。然后根据N个决策树输出的结果决定最终结果(离散型的输出:取最多的类别,连续型的输出:取平均数),是一种集成学习 下面引用的是谢益辉博士关于Bootstrap 阅读全文
posted @ 2020-05-04 06:59 CeasonCing 阅读(478) 评论(0) 推荐(0)
摘要:1. 决策树ID3算法的信息论基础 ID3算法是决策树的一种,它是基于奥卡姆剃刀原理的,即用尽量用较少的东西做更多的事。ID3算法,即Iterative Dichotomiser 3,迭代二叉树3代,是Ross Quinlan发明的一种决策树算法,这个算法的基础就是上面提到的奥卡姆剃刀原理,越是小型 阅读全文
posted @ 2020-05-04 04:18 CeasonCing 阅读(938) 评论(0) 推荐(0)
摘要:在聊 Word2vec 之前,先聊聊 NLP (自然语言处理)。NLP 里面,最细粒度的是 词语,词语组成句子,句子再组成段落、篇章、文档。所以处理 NLP 的问题,首先就要拿词语开刀。 举个简单例子,判断一个词的词性,是动词还是名词。用机器学习的思路,我们有一系列样本(x,y),这里 x 是词语, 阅读全文
posted @ 2020-05-02 15:52 CeasonCing 阅读(279) 评论(2) 推荐(0)