2018 年 11月随笔档案 - Python少年

SVD

摘要：一，引言我们知道，在实际生活中，采集到的数据大部分信息都是无用的噪声和冗余信息，那么，我们如何才能剔除掉这些噪声和无用的信息，只保留包含绝大部分重要信息的数据特征呢？除了上次降到的PCA方法，本次介绍另外一种方法，即SVD。SVD可以用于简化数据，提取出数据的重要特征，而剔除掉数据中的噪声和冗余阅读全文

posted @ 2018-11-18 13:54 Python少年阅读(1390) 评论(0) 推荐(0)

PCA

摘要：一，引言降维是对数据高维度特征的一种预处理方法。降维是将高维度的数据保留下最重要的一些特征，去除噪声和不重要的特征，从而实现提升数据处理速度的目的。在实际的生产和应用中，降维在一定的信息损失范围内，可以为我们节省大量的时间和成本。降维也成为了应用非常广泛的数据预处理方法。降维具有如下一些优点：阅读全文

posted @ 2018-11-18 11:24 Python少年阅读(828) 评论(0) 推荐(0)

Apriori

摘要：基本概念项与项集：设itemset={item1, item_2, …, item_m}是所有项的集合，其中，item_k(k=1,2,…,m)成为项。项的集合称为项集（itemset），包含k个项的项集称为k项集(k-itemset)。事务与事务集：一个事务T是一个项集，它是itemset的一阅读全文

posted @ 2018-11-14 18:59 Python少年阅读(455) 评论(0) 推荐(0)

K均值

摘要：K-means算法的工作流程首先，随机确定k个初始点的质心；然后将数据集中的每一个点分配到一个簇中，即为每一个点找到距其最近的质心，并将其分配给该质心所对应的簇；该步完成后，每一个簇的质心更新为该簇所有点的平均值。伪代码如下：再看实际的代码：需要说明的是，在算法中，相似度的计算方法默认的是欧氏阅读全文

posted @ 2018-11-10 14:46 Python少年阅读(1491) 评论(0) 推荐(0)

树回归

摘要：一，引言尽管线性回归包含了一些强大的方法，但这些方法创建的模型需要拟合所有的样本数据。当数据拥有众多特征并且特征之间的关系比较复杂时，构建全局线性模型就会非常困难。并且，在实际生活中很多问题都是非线性的，很难通过全局线性模型来拟合所有数据。解决上述非线性数据的拟合问题的一个可行的方法是，将数据集阅读全文

posted @ 2018-11-09 15:29 Python少年阅读(810) 评论(0) 推荐(0)

机器学习实战之回归

摘要：转自：https://www.cnblogs.com/zy230530/p/6942458.html 一，引言前面讲到的基本都是分类问题，分类问题的目标变量是标称型数据，或者离散型数据。而回归的目标变量为连续型，也即是回归对连续型变量做出预测，最直接的办法是依据输入写出一个目标值的计算公式，这样，阅读全文

posted @ 2018-11-09 10:33 Python少年阅读(2278) 评论(0) 推荐(0)

Adaboost

摘要：Adaboost算法概述 Adaboost算法核心思想：“三个臭皮匠赛过一诸葛亮”。我们平常构建的分类模型可以说是弱分类器，若将这些弱分类器组合起来可以成为一个强分类器。大多数的提升方法是该表训练数据的概率分布（训练数据的权值分布），针对不同的训练数据分布调用弱学习算法学习。如何改变训练数据的权值阅读全文

posted @ 2018-11-09 08:43 Python少年阅读(345) 评论(0) 推荐(0)

召回率与精确率

摘要：工业界往往会根据实际的业务场景拟定相应的业务指标。本文旨在一起学习比较经典的三大类评价指标，其中第一、二类主要用于分类场景、第三类主要用于回归预测场景，基本思路是从概念公式，到优缺点，再到具体应用（分类问题，本文以二分类为例）。 1.准确率P、召回率R、F1 值定义准确率（Precision）：阅读全文

posted @ 2018-11-09 08:34 Python少年阅读(1571) 评论(0) 推荐(0)

Python少年

11 2018 档案