机器学习 - 随笔分类 - Python少年

空间变换网络

摘要：转自https://www.cnblogs.com/liaohuiqiang/p/9226335.html 2015, NIPSMax Jaderberg, Karen Simonyan, Andrew Zisserman, Koray Kavukcuoglu Google DeepMind 为什么阅读全文

posted @ 2019-06-08 15:29 Python少年阅读(615) 评论(0) 推荐(0) 编辑

KL散度

摘要：转自：http://www.cnblogs.com/hxsyl/p/4910218.html 一、第一种理解相对熵（relative entropy）又称为KL散度（Kullback–Leibler divergence，简称KLD），信息散度（information divergence），信息阅读全文

posted @ 2019-01-23 23:00 Python少年阅读(4898) 评论(0) 推荐(0) 编辑

SVD

摘要：一，引言我们知道，在实际生活中，采集到的数据大部分信息都是无用的噪声和冗余信息，那么，我们如何才能剔除掉这些噪声和无用的信息，只保留包含绝大部分重要信息的数据特征呢？除了上次降到的PCA方法，本次介绍另外一种方法，即SVD。SVD可以用于简化数据，提取出数据的重要特征，而剔除掉数据中的噪声和冗余阅读全文

posted @ 2018-11-18 13:54 Python少年阅读(1293) 评论(0) 推荐(0) 编辑

PCA

摘要：一，引言降维是对数据高维度特征的一种预处理方法。降维是将高维度的数据保留下最重要的一些特征，去除噪声和不重要的特征，从而实现提升数据处理速度的目的。在实际的生产和应用中，降维在一定的信息损失范围内，可以为我们节省大量的时间和成本。降维也成为了应用非常广泛的数据预处理方法。降维具有如下一些优点：阅读全文

posted @ 2018-11-18 11:24 Python少年阅读(799) 评论(0) 推荐(0) 编辑

Apriori

摘要：基本概念项与项集：设itemset={item1, item_2, …, item_m}是所有项的集合，其中，item_k(k=1,2,…,m)成为项。项的集合称为项集（itemset），包含k个项的项集称为k项集(k-itemset)。事务与事务集：一个事务T是一个项集，它是itemset的一阅读全文

posted @ 2018-11-14 18:59 Python少年阅读(435) 评论(0) 推荐(0) 编辑

K均值

摘要：K-means算法的工作流程首先，随机确定k个初始点的质心；然后将数据集中的每一个点分配到一个簇中，即为每一个点找到距其最近的质心，并将其分配给该质心所对应的簇；该步完成后，每一个簇的质心更新为该簇所有点的平均值。伪代码如下：再看实际的代码：需要说明的是，在算法中，相似度的计算方法默认的是欧氏阅读全文

posted @ 2018-11-10 14:46 Python少年阅读(1425) 评论(0) 推荐(0) 编辑

树回归

摘要：一，引言尽管线性回归包含了一些强大的方法，但这些方法创建的模型需要拟合所有的样本数据。当数据拥有众多特征并且特征之间的关系比较复杂时，构建全局线性模型就会非常困难。并且，在实际生活中很多问题都是非线性的，很难通过全局线性模型来拟合所有数据。解决上述非线性数据的拟合问题的一个可行的方法是，将数据集阅读全文

posted @ 2018-11-09 15:29 Python少年阅读(781) 评论(0) 推荐(0) 编辑

机器学习实战之回归

摘要：转自：https://www.cnblogs.com/zy230530/p/6942458.html 一，引言前面讲到的基本都是分类问题，分类问题的目标变量是标称型数据，或者离散型数据。而回归的目标变量为连续型，也即是回归对连续型变量做出预测，最直接的办法是依据输入写出一个目标值的计算公式，这样，阅读全文

posted @ 2018-11-09 10:33 Python少年阅读(2194) 评论(0) 推荐(0) 编辑

Adaboost

摘要：Adaboost算法概述 Adaboost算法核心思想：“三个臭皮匠赛过一诸葛亮”。我们平常构建的分类模型可以说是弱分类器，若将这些弱分类器组合起来可以成为一个强分类器。大多数的提升方法是该表训练数据的概率分布（训练数据的权值分布），针对不同的训练数据分布调用弱学习算法学习。如何改变训练数据的权值阅读全文

posted @ 2018-11-09 08:43 Python少年阅读(309) 评论(0) 推荐(0) 编辑

召回率与精确率

摘要：工业界往往会根据实际的业务场景拟定相应的业务指标。本文旨在一起学习比较经典的三大类评价指标，其中第一、二类主要用于分类场景、第三类主要用于回归预测场景，基本思路是从概念公式，到优缺点，再到具体应用（分类问题，本文以二分类为例）。 1.准确率P、召回率R、F1 值定义准确率（Precision）：阅读全文

posted @ 2018-11-09 08:34 Python少年阅读(1470) 评论(0) 推荐(0) 编辑

logistic回归

摘要：一、logistic回归概述主要是进行二分类预测，也即是对于0~1之间的概率值，当概率大于0.5预测为1，小于0.5预测为0.显然，我们不能不提到一个函数，即sigmoid=1/(1+exp(-inX)),该函数的曲线类似于一个s型，在x=0处，函数值为0.5. 于是，为了实现logistic分类阅读全文

posted @ 2018-10-24 21:08 Python少年阅读(10011) 评论(0) 推荐(1) 编辑

朴素贝叶斯

摘要：1 准备知识：条件概率公式相信学过概率论的同学对于概率论绝对不会陌生，如果一时觉得生疏，可以查阅相关资料，在这里主要是想贴出条件概率的计算公式： P(A|B)=P(A,B)/P(B)=P(B|A)*P(A)/P(B) 2 如何使用条件概率进行分类假设这里要被分类的类别有两类，类c1和类c2，那么阅读全文

posted @ 2018-10-24 12:37 Python少年阅读(408) 评论(0) 推荐(0) 编辑

ID3决策树

摘要：决策树优点：计算复杂度不高，输出结果易于理解，对中间值的缺少不敏感，可以处理不相关特征数据缺点：过拟合决策树的构造熵：混乱程度，信息的期望值其中p(xi)是选择分类的概率熵就是计算所有类别所有可能值包含的信息期望值，公式如下：（公式2）构造基本思路信息增益 = 初始香农熵-新计算得阅读全文

posted @ 2018-10-16 20:56 Python少年阅读(390) 评论(0) 推荐(0) 编辑

K近邻算法

摘要：K近邻算法简单概述 K近邻算法采用测量不同特征值之间的距离方法进行分类该方法的思路是：如果一个样本在特征空间中与k个实例最为相似(即特征空间中最邻近)，那么这k个实例中大多数属于哪个类别，则该样本也属于这个类别。其中，计算样本与其他实例的相似性一般采用距离衡量法。离得越近越相似，离得越远越不相似阅读全文

posted @ 2018-10-01 20:23 Python少年阅读(288) 评论(0) 推荐(0) 编辑

Mini-Batch 、Momentum、Adam算法的实现

摘要：Mini-Batch 1. 把训练集打乱，但是X和Y依旧是一一对应的 2.创建迷你分支数据集 Momentum 1初始化 2动量更新参数 Adam Adam算法是训练神经网络中最有效的算法之一，它是RMSProp算法与Momentum算法的结合体。 1.初始化参数 2.Adam算法实现 def up 阅读全文

posted @ 2018-09-17 11:17 Python少年阅读(6619) 评论(0) 推荐(0) 编辑

第一章机器学习基础

摘要：机器学习的主要任务监督学习对于分类问题，机器学习的主要任务是将实例数据划分到合适的分类中，机器学习的另一项任务是回归，它主要用于预测数值型数据（数据拟合曲线）。分类与回归属于监督学习，之所以称之为监督学习，是因为这类算法知道要预测什么，即目标变量的分类信息无监督学习对于监督学习，此时数据没阅读全文

posted @ 2018-06-20 15:06 Python少年阅读(338) 评论(0) 推荐(0) 编辑

Python少年

随笔分类 - 机器学习