随笔分类 -  机器学习/深度学习

K近邻算法(KNN)
摘要:1. 什么是KNN 1.1 KNN的通俗解释 何谓K近邻算法,即K-Nearest Neighbor algorithm,简称KNN算法,单从名字来猜想,可以简单粗暴的认为是:K个最近的邻居,当K=1时,算法便成了最近邻算法,即寻找最近的那个邻居。 用官方的话来说,所谓K近邻算法,即是给定一个训练数 阅读全文

posted @ 2021-03-31 13:35 农夫三拳有點疼 阅读(1102) 评论(0) 推荐(0) 编辑

机器学习特征工程和优化方法
摘要:1. 特征工程有哪些? 特征工程,顾名思义,是对原始数据进行一系列工程处理,将其提炼为特征,作为输入供算法和模型使用。从本质上来讲,特征工程是一个表示和展现数 据的过程。在实际工作中,特征工程旨在去除原始数据中的杂质和冗余,设计更高效的特征以刻画求解的问题与预测模型之间的关系。 主要讨论以下两种常用 阅读全文

posted @ 2021-03-31 13:26 农夫三拳有點疼 阅读(328) 评论(0) 推荐(0) 编辑

聚类(Clustering)
摘要:1. 聚类算法都是无监督学习吗? 什么是聚类算法?聚类是一种机器学习技术,它涉及到数据点的分组。给定一组数据点,我们可以使用聚类算法将每个数据点划分为一个特定的组。理论上,同一组中的数据点应该具有相似的属性和/或特征,而不同组中的数据点应该具有高度不同的属性和/或特征。聚类是一种无监督学习的方法,是 阅读全文

posted @ 2021-03-31 11:28 农夫三拳有點疼 阅读(840) 评论(0) 推荐(0) 编辑

最大期望算法(EM)
摘要:1. 什么是EM算法 最大期望算法(Expectation-maximization algorithm,又译为期望最大化算法),是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐性变量。 最大期望算法经过两个步骤交替进行计算, 第一步是计算期望(E),利用对隐 阅读全文

posted @ 2021-03-31 11:22 农夫三拳有點疼 阅读(1126) 评论(0) 推荐(1) 编辑

主题模型(Topic Model)
摘要:1. LDA模型是什么 LDA可以分为以下5个步骤: 一个函数:gamma函数。 四个分布:二项分布、多项分布、beta分布、Dirichlet分布。 一个概念和一个理念:共轭先验和贝叶斯框架。 两个模型:pLSA、LDA。 一个采样:Gibbs采样 关于LDA有两种含义,一种是线性判别分析(Lin 阅读全文

posted @ 2021-03-31 10:54 农夫三拳有點疼 阅读(480) 评论(0) 推荐(0) 编辑

马尔科夫(Markov)
摘要:1. 马尔可夫网络、马尔可夫模型、马尔可夫过程、贝叶斯网络的区别 以下共分六点说明这些概念,分成条目只是方便边阅读边思考,这6点是依次递进的,不要跳跃着看。 将随机变量作为结点,若两个随机变量相关或者不独立,则将二者连接一条边;若给定若干随机变量,则形成一个有向图,即构成一个网络。 如果该网络是有向 阅读全文

posted @ 2021-03-31 10:51 农夫三拳有點疼 阅读(1852) 评论(0) 推荐(1) 编辑

贝叶斯网络(Bayesian Network)
摘要:1. 对概率图模型的理解 概率图模型是用图来表示变量概率依赖关系的理论,结合概率论与图论的知识,利用图来表示与模型有关的变量的联合概率分布。由图灵奖获得者Pearl开发出来。 如果用一个词来形容概率图模型(Probabilistic Graphical Model)的话,那就是“优雅”。对于一个实际 阅读全文

posted @ 2021-03-31 10:43 农夫三拳有點疼 阅读(1573) 评论(0) 推荐(0) 编辑

支持向量机(SVM)
摘要:1. 讲讲SVM 1.1 一个关于SVM的童话故事 支持向量机(Support Vector Machine,SVM)是众多监督学习方法中十分出色的一种,几乎所有讲述经典机器学习方法的教材都会介绍。关于SVM,流传着一个关于天使与魔鬼的故事。 传说魔鬼和天使玩了一个游戏,魔鬼在桌上放了两种颜色的球。 阅读全文

posted @ 2021-03-30 15:08 农夫三拳有點疼 阅读(308) 评论(0) 推荐(0) 编辑

LightGBM
摘要:1. LightGBM是什么东东 不久前微软DMTK(分布式机器学习工具包)团队在GitHub上开源了性能超越其他boosting工具的LightGBM,在三天之内GitHub上被star了1000次,fork了200次。知乎上有近千人关注“如何看待微软开源的LightGBM?”问题,被评价为“速度 阅读全文

posted @ 2021-03-30 13:47 农夫三拳有點疼 阅读(155) 评论(0) 推荐(0) 编辑

XGBoost
摘要:1. 什么是XGBoost XGBoost是陈天奇等人开发的一个开源机器学习项目,高效地实现了GBDT算法并进行了算法和工程上的许多改进,被广泛应用在Kaggle竞赛及其他许多机器学习竞赛中并取得了不错的成绩。 说到XGBoost,不得不提GBDT(Gradient Boosting Decisio 阅读全文

posted @ 2021-03-30 13:38 农夫三拳有點疼 阅读(138) 评论(0) 推荐(0) 编辑

梯度提升决策树(GBDT)
摘要:1. 解释一下GBDT算法的过程 GBDT(Gradient Boosting Decision Tree),全名叫梯度提升决策树,使用的是Boosting的思想。 1.1 Boosting思想 Boosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。它的基本思路是将基分类器层层叠 阅读全文

posted @ 2021-03-30 13:29 农夫三拳有點疼 阅读(275) 评论(0) 推荐(0) 编辑

梯度提升决策树(GBDT)
摘要:1. 解释一下GBDT算法的过程 GBDT(Gradient Boosting Decision Tree),全名叫梯度提升决策树,使用的是Boosting的思想。 1.1 Boosting思想 Boosting方法训练基分类器时采用串行的方式,各个基分类器之间有依赖。它的基本思路是将基分类器层层叠 阅读全文

posted @ 2021-03-30 13:26 农夫三拳有點疼 阅读(614) 评论(0) 推荐(0) 编辑

随机森林(Random Forest)
摘要:1.什么是随机森林 1.1 Bagging思想 Bagging是bootstrap aggregating。思想就是从总体样本当中随机取一部分样本进行训练,通过多次这样的结果,进行投票获取平均值作为结果输出,这就极大可能的避免了不好的样本数据,从而提高准确度。因为有些是不好的样本,相当于噪声,模型学 阅读全文

posted @ 2021-03-30 11:28 农夫三拳有點疼 阅读(622) 评论(0) 推荐(0) 编辑

决策树(Desision Tree)
摘要:1. 什么是决策树 1.1 决策树的基本思想 其实用一下图片能更好的理解LR模型和决策树模型算法的根本区别,我们可以思考一下一个决策问题:是否去相亲,一个女孩的母亲要给这个女海介绍对象。 LR模型是一股脑儿的把所有特征塞入学习,而决策树更像是编程语言中的if-else一样,去做条件判断,这就是根本性 阅读全文

posted @ 2021-03-30 11:04 农夫三拳有點疼 阅读(264) 评论(0) 推荐(0) 编辑

逻辑回归(Logistics Regression)
摘要:1. 什么是逻辑回归 逻辑回归是用来做分类算法的,大家都熟悉线性回归,一般形式是Y=aX+b,y的取值范围是[-∞, +∞],有这么多取值,怎么进行分类呢?不用担心,伟大的数学家已经为我们找到了一个方法。 也就是把Y的结果带入一个非线性变换的Sigmoid函数中,即可得到[0,1]之间取值范围的数S 阅读全文

posted @ 2021-03-30 10:53 农夫三拳有點疼 阅读(567) 评论(0) 推荐(0) 编辑

线性回归(Liner Regression)
摘要:1. 什么是线性回归 线性:两个变量之间的关系是一次函数关系的——图象是直线,叫做线性。 非线性:两个变量之间的关系不是一次函数关系的——图象不是直线,叫做非线性。 回归:人们在测量事物的时候因为客观条件所限,求得的都是测量值,而不是事物真实的值,为了能够得到真实值,无限次的进行测量,最后通过这些测 阅读全文

posted @ 2021-03-30 10:43 农夫三拳有點疼 阅读(220) 评论(0) 推荐(0) 编辑

EM算法原理
摘要:一、EM算法的预备知识 1、极大似然估计 (1)举例说明:经典问题——学生身高问题 我们需要调查我们学校的男生和女生的身高分布。 假设你在校园里随便找了100个男生和100个女生。他们共200个人。将他们按照性别划分为两组,然后先统计抽样得到的100个男生的身高。假设他们的身高是服从高斯分布的。但是 阅读全文

posted @ 2020-03-31 15:43 农夫三拳有點疼 阅读(237) 评论(0) 推荐(0) 编辑

基于深度学习的中文语音识别系统
摘要:最近看到一个开源项目,特地学习了下,实测后,语音识别系统的正确率大概75%左右,作为学习入门的资料还是不错的,项目已上传到github上,不过数据集和生成的模型由于文件太大,上传失败,随后存在百度网盘,自行下载哈,普通电脑真伤,跑了三天,还是gpu快点。 查看本项目的Wiki文档 如果程序运行期间或 阅读全文

posted @ 2019-12-23 10:02 农夫三拳有點疼 阅读(2062) 评论(0) 推荐(0) 编辑

常见机器学习算法简版
摘要:朴素贝叶斯: 有以下几个地方需要注意: 1. 如果给出的特征向量长度可能不同,这是需要归一化为通长度的向量(这里以文本分类为例),比如说是句子单词的话,则长度为整个词汇量的长度,对应位置是该单词出现的次数。 2. 计算公式如下: 其中一项条件概率可以通过朴素贝叶斯条件独立展开。要注意一点就是 的计算 阅读全文

posted @ 2019-12-18 14:36 农夫三拳有點疼 阅读(222) 评论(0) 推荐(0) 编辑

基于CNN的电影推荐系统
摘要:从深度学习卷积神经网络入手,基于 Github 的开源项目来完成 MovieLens 数据集的电影推荐系统。 什么是推荐系统呢? 什么是推荐系统呢?首先我们来看看几个常见的推荐场景。 如果你经常通过豆瓣电影评分来找电影,你会发现下图所示的推荐: 如果你喜欢购物,根据你的选择和购物行为,平台会给你推荐 阅读全文

posted @ 2019-12-03 15:54 农夫三拳有點疼 阅读(2243) 评论(0) 推荐(0) 编辑

导航