-
你想知道的特征工程,机器学习优化方法都在这了!收藏!
摘要:文章目录1. 特征工程有哪些?1.1 特征归一化1.2 类别型特征1.3 高维组合特征的处理1.4 文本表示模型1.5 其它特征工程1.6 特征工程脑图2. 机器学习优化方法2.1 机器学习常用损失函数2.2 什么是凸优化2.3 正则化项2.4 常见的几种最优化方法3. 机器学习评估方法3.1 准...
阅读全文
-
K-Means(K均值)、GMM(高斯混合模型),通俗易懂,先收藏了!
摘要:1. 聚类算法都是无监督学习吗? 什么是聚类算法?聚类是一种机器学习技术,它涉及到数据点的分组。给定一组数据点,我们可以使用聚类算法将每个数据点划分为一个特定的组。理论上,同一组中的数据点应该具有相似的属性和/或特征,而不同组中的数据点应该具有高度不同的属性和/或特征。聚类是一种无监督学习的方法,...
阅读全文
-
从似然函数到EM算法(附代码实现)
摘要:文章目录1. 什么是EM算法1.1 似然函数1.3 极大似然函数的求解步骤1.4 EM算法2. 采用 EM 算法求解的模型有哪些?3.代码实现4. 参考文献 1. 什么是EM算法 最大期望算法(Expectation-maximization algorithm,又译为期望最大化算法),是在概率模...
阅读全文
-
一次性弄懂马尔可夫模型、隐马尔可夫模型、马尔可夫网络和条件随机场!(词性标注代码实现)
摘要:文章目录1. 马尔可夫网络、马尔可夫模型、马尔可夫过程、贝叶斯网络的区别2. 马尔可夫模型2.1 马尔可夫过程3. 隐马尔可夫模型(HMM)3.1 隐马尔可夫三大问题3.1.1 第一个问题解法3.1.2 第二个问题解法3.1.3 第三个问题解法4. 马尔可夫网络4.1 因子图4.2 马尔可夫网络5...
阅读全文
-
贝叶斯网络,看完这篇我终于理解了(附代码)!
摘要:文章目录1. 对概率图模型的理解2. 细数贝叶斯网络2.1 频率派观点2.2 贝叶斯学派2.3 贝叶斯定理2.4 贝叶斯网络2.4.1 贝叶斯网络的结构形式2.4.2 因子图2.5 朴素贝叶斯3. 基于贝叶斯的一些问题4. 生成式模型和判别式模型的区别5. 代码实现6. 参考文献 1. 对概率图模...
阅读全文
-
我是这样理解--SVM,不需要繁杂公式的那种!(附代码)
摘要:文章目录1. 讲讲SVM1.1 一个关于SVM的童话故事1.2 理解SVM:第一层1.2.1 函数间隔与几何间隔1.2.2 最大间隔分类器的定义1.2.3 最大间隔损失函数Hinge loss1.3 深入SVM:第二层1.3.1 从线性可分到线性不可分1.3.2 核函数Kernel1.3.3 总结...
阅读全文
-
LightGBM,面试会问到的都在这了(附代码)!
摘要:1. LightGBM是什么东东 不久前微软DMTK(分布式机器学习工具包)团队在GitHub上开源了性能超越其他boosting工具的LightGBM,在三天之内GitHub上被star了1000次,fork了200次。知乎上有近千人关注“如何看待微软开源的LightGBM?”问题,被评价为“速...
阅读全文
-
终于有人说清楚了--XGBoost算法
摘要:文章目录1. 什么是XGBoost1.1 XGBoost树的定义1.2 正则项:树的复杂度1.3 树该怎么长1.4 如何停止树的循环生成2. XGBoost与GBDT有什么不同3. 为什么XGBoost要用泰勒展开,优势在哪里?4. 代码实现5. 参考文献 1. 什么是XGBoost XGBoos...
阅读全文
-
GBDT--原来是这么回事(附代码)
摘要:GBDT的原理很简单,就是所有弱分类器的结果相加等于预测值,然后下一个弱分类器去拟合误差函数对预测值的残差(这个残差就是预测值与真实值之间的误差)。当然了,它里面的弱分类器的表现形式就是各棵树。
阅读全文
-
随机森林--你想到的,都在这了。
摘要:文章目录1.什么是随机森林1.1 Bagging思想1.2 随机森林2. 随机森林分类效果的影响因素3. 随机森林有什么优缺点4. 随机森林如何处理缺失值?5. 什么是OOB?随机森林中OOB是如何计算的,它有什么优缺点?6. 随机森林的过拟合问题7. 代码实现 1.什么是随机森林 1.1
阅读全文
-
看完这篇--决策树,80%都懂了
摘要:1. 什么是决策树 1.1 决策树的基本思想 其实用一下图片能更好的理解LR模型和决策树模型算法的根本区别,我们可以思考一下一个决策问题:是否去...
阅读全文
-
看完这篇,逻辑回归80%都懂了
摘要:1. 什么是逻辑回归 逻辑回归是用来做分类算法的,大家都熟悉线性回归,一般形式是Y=aX+b,y的取值范围是[-∞, +∞],有这么多取值,怎么...
阅读全文
-
好记忆的机器学习面试--线性回归
摘要:1.什么是线性回归 线性:两个变量之间的关系是一次函数关系的——图象是直线,叫做线性。 非线性:两个变量之间的关系不是一次函数关系的——图象不是...
阅读全文
-
NLP从词袋到Word2Vec的文本表示
摘要:在NLP(自然语言处理)领域,文本表示是第一步,也是很重要的一步,通俗来说就是把人类的语言符号转化为机器能够进行计算的数字,因为普通的文本语言机...
阅读全文
-
《数学之美》
摘要:之所以会写《数学之美》这本书的读书笔记,是因为我觉得这本书非常好,道出了数学上艺术的一面和美丽的一面。让我感觉以前所学的数学都没有白学,突然间变...
阅读全文
-
《数学之美》--第一章:文字和语言 vs 数字和信息
摘要:第一章 文字和语言 vs 数字和信息 数字、文字和自然语言一样,都是信息的载体,它们之间原本有着天然的联系。语言和数学的产生都是为了...
阅读全文
-
通俗易懂--岭回归(L2)、lasso回归(L1)、ElasticNet讲解(算法+案例)
摘要:1.L2正则化(岭回归) 1.1问题 想要理解什么是正则化,首先我们先来了解上图的方程式。当训练的特征和数据很少时,往往会造成欠拟合的情况,对应...
阅读全文
-
通俗易懂--模型集成(多模型)讲解(算法+案例)
摘要:1.信用卡欺诈预测案例 这是一道kaggle上的题目。 我们都知道信用卡,能够透支一大笔钱来供自己消费,正因为这一点,不法分子就利用信用卡进一特...
阅读全文
-
通俗易懂--SVM算法讲解(算法+案例)
摘要:1.SVM讲解 新闻分类案例 SVM是一个很复杂的算法,不是一篇博文就能够讲完的,所以此篇的定位是初学者能够接受的程度,并且讲的都是SVM的一种...
阅读全文
-
通俗易懂--决策树算法、随机森林算法讲解(算法+案例)
摘要:1.决策树 1.1从LR到决策树 相信大家都做过用LR来进行分类,总结一下LR模型的优缺点: 优点 适合需要得到一个分类概率的场景。 实现效率较...
阅读全文
|