随笔分类 -  机器学习

摘要:转自https://www.cnblogs.com/liaohuiqiang/p/9226335.html 2015, NIPSMax Jaderberg, Karen Simonyan, Andrew Zisserman, Koray Kavukcuoglu Google DeepMind 为什么 阅读全文
posted @ 2019-06-08 15:29 Python少年 阅读(615) 评论(0) 推荐(0) 编辑
摘要:转自:http://www.cnblogs.com/hxsyl/p/4910218.html 一、第一种理解 相对熵(relative entropy)又称为KL散度(Kullback–Leibler divergence,简称KLD),信息散度(information divergence),信息 阅读全文
posted @ 2019-01-23 23:00 Python少年 阅读(4898) 评论(0) 推荐(0) 编辑
摘要:一,引言 我们知道,在实际生活中,采集到的数据大部分信息都是无用的噪声和冗余信息,那么,我们如何才能剔除掉这些噪声和无用的信息,只保留包含绝大部分重要信息的数据特征呢? 除了上次降到的PCA方法,本次介绍另外一种方法,即SVD。SVD可以用于简化数据,提取出数据的重要特征,而剔除掉数据中的噪声和冗余 阅读全文
posted @ 2018-11-18 13:54 Python少年 阅读(1293) 评论(0) 推荐(0) 编辑
摘要:一,引言 降维是对数据高维度特征的一种预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为了应用非常广泛的数据预处理方法。 降维具有如下一些优点: 阅读全文
posted @ 2018-11-18 11:24 Python少年 阅读(799) 评论(0) 推荐(0) 编辑
摘要:基本概念 项与项集:设itemset={item1, item_2, …, item_m}是所有项的集合,其中,item_k(k=1,2,…,m)成为项。项的集合称为项集(itemset),包含k个项的项集称为k项集(k-itemset)。 事务与事务集:一个事务T是一个项集,它是itemset的一 阅读全文
posted @ 2018-11-14 18:59 Python少年 阅读(435) 评论(0) 推荐(0) 编辑
摘要:K-means算法的工作流程 首先,随机确定k个初始点的质心;然后将数据集中的每一个点分配到一个簇中,即为每一个点找到距其最近的质心,并将其分配给该质心所对应的簇;该步完成后,每一个簇的质心更新为该簇所有点的平均值。伪代码如下: 再看实际的代码: 需要说明的是,在算法中,相似度的计算方法默认的是欧氏 阅读全文
posted @ 2018-11-10 14:46 Python少年 阅读(1425) 评论(0) 推荐(0) 编辑
摘要:一,引言 尽管线性回归包含了一些强大的方法,但这些方法创建的模型需要拟合所有的样本数据。当数据拥有众多特征并且特征之间的关系比较复杂时,构建全局线性模型就会非常困难。并且,在实际生活中很多问题都是非线性的,很难通过全局线性模型来拟合所有数据。 解决上述非线性数据的拟合问题的一个可行的方法是,将数据集 阅读全文
posted @ 2018-11-09 15:29 Python少年 阅读(781) 评论(0) 推荐(0) 编辑
摘要:转自:https://www.cnblogs.com/zy230530/p/6942458.html 一,引言 前面讲到的基本都是分类问题,分类问题的目标变量是标称型数据,或者离散型数据。而回归的目标变量为连续型,也即是回归对连续型变量做出预测,最直接的办法是依据输入写出一个目标值的计算公式,这样, 阅读全文
posted @ 2018-11-09 10:33 Python少年 阅读(2194) 评论(0) 推荐(0) 编辑
摘要:Adaboost算法概述 Adaboost算法核心思想:“三个臭皮匠赛过一诸葛亮”。我们平常构建的分类模型可以说是弱分类器,若将这些弱分类器组合起来可以成为一个强分类器。大多数的提升方法是该表训练数据的概率分布(训练数据的权值分布),针对不同的训练数据分布调用弱学习算法学习。 如何改变训练数据的权值 阅读全文
posted @ 2018-11-09 08:43 Python少年 阅读(309) 评论(0) 推荐(0) 编辑
摘要:工业界往往会根据实际的业务场景拟定相应的业务指标。本文旨在一起学习比较经典的三大类评价指标,其中第一、二类主要用于分类场景、第三类主要用于回归预测场景,基本思路是从概念公式,到优缺点,再到具体应用(分类问题,本文以二分类为例)。 1.准确率P、召回率R、F1 值 定义 准确率(Precision): 阅读全文
posted @ 2018-11-09 08:34 Python少年 阅读(1470) 评论(0) 推荐(0) 编辑
摘要:一、logistic回归概述 主要是进行二分类预测,也即是对于0~1之间的概率值,当概率大于0.5预测为1,小于0.5预测为0.显然,我们不能不提到一个函数,即sigmoid=1/(1+exp(-inX)),该函数的曲线类似于一个s型,在x=0处,函数值为0.5. 于是,为了实现logistic分类 阅读全文
posted @ 2018-10-24 21:08 Python少年 阅读(10011) 评论(0) 推荐(1) 编辑
摘要:1 准备知识:条件概率公式 相信学过概率论的同学对于概率论绝对不会陌生,如果一时觉得生疏,可以查阅相关资料,在这里主要是想贴出条件概率的计算公式: P(A|B)=P(A,B)/P(B)=P(B|A)*P(A)/P(B) 2 如何使用条件概率进行分类 假设这里要被分类的类别有两类,类c1和类c2,那么 阅读全文
posted @ 2018-10-24 12:37 Python少年 阅读(408) 评论(0) 推荐(0) 编辑
摘要:决策树 优点:计算复杂度不高,输出结果易于理解,对中间值的缺少不敏感,可以处理不相关特征数据 缺点:过拟合 决策树的构造 熵:混乱程度,信息的期望值 其中p(xi)是选择分类的概率 熵就是计算所有类别所有可能值包含的信息期望值,公式如下: (公式2) 构造基本思路 信息增益 = 初始香农熵-新计算得 阅读全文
posted @ 2018-10-16 20:56 Python少年 阅读(390) 评论(0) 推荐(0) 编辑
摘要:K近邻算法简单概述 K近邻算法采用测量不同特征值之间的距离方法进行分类 该方法的思路是:如果一个样本在特征空间中与k个实例最为相似(即特征空间中最邻近),那么这k个实例中大多数属于哪个类别,则该样本也属于这个类别。 其中,计算样本与其他实例的相似性一般采用距离衡量法。离得越近越相似,离得越远越不相似 阅读全文
posted @ 2018-10-01 20:23 Python少年 阅读(288) 评论(0) 推荐(0) 编辑
摘要:Mini-Batch 1. 把训练集打乱,但是X和Y依旧是一一对应的 2.创建迷你分支数据集 Momentum 1初始化 2动量更新参数 Adam Adam算法是训练神经网络中最有效的算法之一,它是RMSProp算法与Momentum算法的结合体。 1.初始化参数 2.Adam算法实现 def up 阅读全文
posted @ 2018-09-17 11:17 Python少年 阅读(6619) 评论(0) 推荐(0) 编辑
摘要:机器学习的主要任务 监督学习 对于分类问题,机器学习的主要任务是将实例数据划分到合适的分类中,机器学习的另一项任务是回归,它主要用于预测数值型数据(数据拟合曲线)。 分类与回归属于监督学习,之所以称之为监督学习,是因为这类算法知道要预测什么,即目标变量的分类信息 无监督学习 对于监督学习,此时数据没 阅读全文
posted @ 2018-06-20 15:06 Python少年 阅读(338) 评论(0) 推荐(0) 编辑