随笔分类 -  机器学习

贝叶斯决策理论(1)
摘要:数据来自于一个不完全清楚的过程。以投掷硬币为例,严格意义上讲,我们无法预测任意一次投硬币的结果是正面还是反面,只能谈论正面或反面出现的概率。在投掷过程中有大量会影响结果的不可观测的变量,比如投掷的姿势、力度、方向,甚至风速和地面的材质都会影响结果。也许这些变量实际上是可以观测的,但我们对这些变量对结 阅读全文

posted @ 2019-12-26 18:02 我是8位的 阅读(1628) 评论(0) 推荐(1) 编辑

异常检测(3)——基于概率统计的异常检测(2)
摘要:书接上文,继续讨论基于多元正态分布的异常检测算法。 现在有一个包含了m个数据的训练集,其中的每个样本都是一个n维数据: 可以通过下面的函数判断一个样本是否是异常的: 我们的目的是设法根据训练集求得μ和σ,以得到一个确定的多元分正态布模型。具体来说,通过最大似然估计量可以得出下面的结论: 其中Σ是协方 阅读全文

posted @ 2019-09-03 18:11 我是8位的 阅读(1202) 评论(0) 推荐(0) 编辑

异常检测(2)——基于概率统计的异常检测(1)
摘要:某个工厂生产了一批手机屏幕,为了评判手机屏幕的质量是否达到标准,质检员需要收集每个样本的若干项指标,比如大小、质量、光泽度等,根据这些指标进行打分,最后判断是否合格。现在为了提高效率,工厂决定使用智能检测进行第一步筛选,质检员只需要重点检测被系统判定为“不合格”的样本。 智能检测程序需要根据大量样本 阅读全文

posted @ 2019-08-29 19:01 我是8位的 阅读(3261) 评论(0) 推荐(1) 编辑

异常检测(1)——局部异常因子算法
摘要:局部异常因子算法(Local Outlier Factor)通过计算“局部可达密度”来反映一个样本的异常程度,一个样本点的局部可达密度越大,这个点就越有可能是异常点。 k距离和k距离邻域 某一点P的k距离(k-distance)很容易解释,就是点P和距离点P第k近的点之间距离,但不包括P。假设P是学 阅读全文

posted @ 2019-06-19 16:16 我是8位的 阅读(7503) 评论(2) 推荐(2) 编辑

ML(7)——支持向量机1(构建支持向量机)
摘要:支持向量机缩写是SVM(support vaector machine),这里的“机(machine)”是一个算法。在机器学习领域,常把一些算法看做是一个机器,如感知机(也叫感知器)。支持向量机本身是一种监督学习算法,它广泛的应用于统计分类以及回归分析中。 阅读全文

posted @ 2018-08-15 17:14 我是8位的 阅读(901) 评论(0) 推荐(0) 编辑

ML(附录4)——拉格朗日乘数法
摘要:基本的拉格朗日乘子法(又称为拉格朗日乘数法),就是求函数 f(x1,x2,...) 在 g(x1,x2,...)=C 的约束条件下的极值的方法。其主要思想是引入一个新的参数 λ (即拉格朗日乘子),将约束条件函数与原函数联系到一起,使能配成与变量数量相等的等式方程,从而求出得到原函数极值的各个变量的解。拉格朗日乘子是数学分析中同一名词的推广。 阅读全文

posted @ 2018-08-15 11:33 我是8位的 阅读(2701) 评论(0) 推荐(0) 编辑

ML(6)——改进机器学习算法
摘要:如何改进机器学习算法是个很大的话题,其中包含了众多的方法和概念,比如交叉验证、偏差与方差、学习曲线、数据倾斜、查准率和召回率等,理解了这些,才能对算法进行正确评估。 阅读全文

posted @ 2018-07-31 11:30 我是8位的 阅读(1568) 评论(0) 推荐(0) 编辑

ML(5)——神经网络3(随机初始化与梯度检验)
摘要:反向传播算法很高效,但对梯度的求解异常繁琐,实际上,即使某处代码计算出错误的梯度,仍然会得到一个模型,尽管这个模型的J(Θ)很小,但对新数据的拟合非常差,此时不得不重新审视所有代码。是否可以从一开始就知道梯度是否正确呢? 阅读全文

posted @ 2018-07-17 17:33 我是8位的 阅读(721) 评论(0) 推荐(0) 编辑

ML(5)——神经网络2(BP反向传播)
摘要:BP算法(即反向传播算法),适合于多层神经元网络的一种学习算法,它建立在梯度下降法的基础上。BP网络的输入输出关系实质上是一种映射关系:一个n输入m输出的BP神经网络所完成的功能是从n维欧氏空间向m维欧氏空间中一有限域的连续映射,这一映射具有高度非线性。它的信息处理能力来源于简单非线性函数的多次复合,因此具有很强的函数复现能力。这是BP算法得以应用的基础。 阅读全文

posted @ 2018-07-13 16:15 我是8位的 阅读(3350) 评论(0) 推荐(0) 编辑

ML(5)——神经网络1(神经元模型与激活函数)
摘要:1997年世界上发生过两件大事,一是克隆羊多利诞生,另一件是IBM 电脑“深蓝”击败国际象棋世界冠军。就在这一年,我从一本电子游戏杂志上看到了一篇关于计算机不可能战胜职业围棋选手的文章。 二十年过去了,2016 年一月底,谷歌在自然杂志上正式公开发表论文,宣布其以深度学习技术为基础的电脑程序 AlphaGo,在 2015年 十月,连续五局击败欧洲冠军、职业二段樊辉。这是第一次机器击败职业围棋选手。 阅读全文

posted @ 2018-07-03 18:39 我是8位的 阅读(6906) 评论(0) 推荐(0) 编辑

ML(4)——逻辑回归
摘要:Logistic Regression虽然名字里带“回归”,但是它实际上是一种分类方法,“逻辑”是Logistic的音译,和真正的逻辑没有任何关系。 阅读全文

posted @ 2018-06-29 17:31 我是8位的 阅读(1137) 评论(0) 推荐(0) 编辑

ML(附录3)——过拟合与欠拟合
摘要:我们希望机器学习得到好的模型,该模型能够从训练样本中找到一个能够适应潜在样本的普遍规律。然而,如果机器学习学的“太好”了,以至把样本的自身特点当作潜在样本的一般特性,这就使得模型的泛化能力(潜在样本的预测能力)下降,从而导致过拟合。反之,欠拟合就是学习的“太差”,连训练样本都没有学好。 阅读全文

posted @ 2018-06-26 15:45 我是8位的 阅读(969) 评论(0) 推荐(0) 编辑

ML(3)——线性回归
摘要:在统计学中,线性回归(Linear Regression)是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线性组合。只有一个自变量的情况称为简单回归,大于一个自变量情况的叫做多元回归。 阅读全文

posted @ 2018-06-17 21:11 我是8位的 阅读(1240) 评论(0) 推荐(0) 编辑

ML(附录2)——最小二乘法
摘要:最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达 阅读全文

posted @ 2018-06-09 15:18 我是8位的 阅读(547) 评论(0) 推荐(0) 编辑

ML(2)——感知器
摘要:感知器(PLA——Perceptron Learning Algorithm),也叫感知机,处理的是机器学习中的分类问题,通过学习得到感知器模型来对新实例进行预测,因此属于判别模型。感知器于1957年提出,是神经网络的基础。 阅读全文

posted @ 2018-04-03 22:14 我是8位的 阅读(1207) 评论(0) 推荐(0) 编辑

ML(附录1)——梯度下降
摘要:梯度下降是迭代法的一种,可以用于求解最小二乘问题(线性和非线性都可以)。在求解机器学习算法的模型参数,即无约束优化问题时,梯度下降(Gradient Descent)是最常采用的方法之一,另一种常用的方法是最小二乘法。在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值。反过来,如果我们需要求解损失函数的最大值,这时就需要用梯度上升法来迭代了。在机器学习中,基于基本的梯度下降法发展了两种梯度下降方法,分别为随机梯度下降法和批量梯度下降法。 阅读全文

posted @ 2018-04-03 22:03 我是8位的 阅读(1077) 评论(0) 推荐(0) 编辑

ML(1)——机器学习简述
摘要:机器学习是人工智能的一种实现方式;深度学习是一种实现机器学习的技术,或者说是一种特殊的机器学习方法,可以说广义上的机器学习也包括了深度学习 阅读全文

posted @ 2018-03-26 16:27 我是8位的 阅读(815) 评论(0) 推荐(0) 编辑

FP-growth算法发现频繁项集(二)——发现频繁项集
摘要:常见的挖掘频繁项集算法有两类,一类是Apriori算法,另一类是FPGrowth。Apriori通过不断的构造候选集、筛选候选集挖掘出频繁项集,需要多次扫描原始数据,当原始数据较大时,磁盘I/O次数太多,效率比较低下。FPGrowth不同于Apriori的“试探”策略,算法只需扫描原始数据两遍,通过FP-tree数据结构对原始数据进行压缩,效率较高。FP代表频繁模式(Frequent Pattern) ,算法主要分为两个步骤:FP-tree构建、挖掘频繁项集。本文是FP-growth算法的第二篇,主要介绍通过条件FP树发现频繁项集 阅读全文

posted @ 2017-09-08 08:44 我是8位的 阅读(14550) 评论(2) 推荐(5) 编辑

FP-growth算法发现频繁项集(一)——构建FP树
摘要:常见的挖掘频繁项集算法有两类,一类是Apriori算法,另一类是FPGrowth。Apriori通过不断的构造候选集、筛选候选集挖掘出频繁项集,需要多次扫描原始数据,当原始数据较大时,磁盘I/O次数太多,效率比较低下。FPGrowth不同于Apriori的“试探”策略,算法只需扫描原始数据两遍,通过FP-tree数据结构对原始数据进行压缩,效率较高。FP代表频繁模式(Frequent Pattern) ,算法主要分为两个步骤:FP-tree构建、挖掘频繁项集。本文是FP-growth算法的第一篇,主要介绍如何构建FPTree 阅读全文

posted @ 2017-09-05 22:39 我是8位的 阅读(27356) 评论(5) 推荐(8) 编辑

使用Apriori进行关联分析(二)
摘要:大型超市有海量交易数据,我们可以通过聚类算法寻找购买相似物品的人群,从而为特定人群提供更具个性化的服务。但是对于超市来讲,更有价值的是如何找出商品的隐藏关联,从而打包促销,以增加营业收入。其中最经典的案例就是关于尿不湿和啤酒的故事。怎样在繁杂的数据中寻找到数据之间的隐藏关系?当然可以使用穷举法,但代价高昂,所以需要使用更加智能的方法在合理时间内找到答案。Apriori就是其中的一种关联分析算法。本文是Apriori的第二篇,介绍如何在频繁项集的基础上挖掘关联规则。 阅读全文

posted @ 2017-08-29 22:32 我是8位的 阅读(4443) 评论(1) 推荐(1) 编辑

导航