11 2018 档案

摘要:一,引言 我们知道,在实际生活中,采集到的数据大部分信息都是无用的噪声和冗余信息,那么,我们如何才能剔除掉这些噪声和无用的信息,只保留包含绝大部分重要信息的数据特征呢? 除了上次降到的PCA方法,本次介绍另外一种方法,即SVD。SVD可以用于简化数据,提取出数据的重要特征,而剔除掉数据中的噪声和冗余 阅读全文
posted @ 2018-11-18 13:54 Python少年 阅读(1390) 评论(0) 推荐(0)
摘要:一,引言 降维是对数据高维度特征的一种预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。在实际的生产和应用中,降维在一定的信息损失范围内,可以为我们节省大量的时间和成本。降维也成为了应用非常广泛的数据预处理方法。 降维具有如下一些优点: 阅读全文
posted @ 2018-11-18 11:24 Python少年 阅读(828) 评论(0) 推荐(0)
摘要:基本概念 项与项集:设itemset={item1, item_2, …, item_m}是所有项的集合,其中,item_k(k=1,2,…,m)成为项。项的集合称为项集(itemset),包含k个项的项集称为k项集(k-itemset)。 事务与事务集:一个事务T是一个项集,它是itemset的一 阅读全文
posted @ 2018-11-14 18:59 Python少年 阅读(455) 评论(0) 推荐(0)
摘要:K-means算法的工作流程 首先,随机确定k个初始点的质心;然后将数据集中的每一个点分配到一个簇中,即为每一个点找到距其最近的质心,并将其分配给该质心所对应的簇;该步完成后,每一个簇的质心更新为该簇所有点的平均值。伪代码如下: 再看实际的代码: 需要说明的是,在算法中,相似度的计算方法默认的是欧氏 阅读全文
posted @ 2018-11-10 14:46 Python少年 阅读(1491) 评论(0) 推荐(0)
摘要:一,引言 尽管线性回归包含了一些强大的方法,但这些方法创建的模型需要拟合所有的样本数据。当数据拥有众多特征并且特征之间的关系比较复杂时,构建全局线性模型就会非常困难。并且,在实际生活中很多问题都是非线性的,很难通过全局线性模型来拟合所有数据。 解决上述非线性数据的拟合问题的一个可行的方法是,将数据集 阅读全文
posted @ 2018-11-09 15:29 Python少年 阅读(810) 评论(0) 推荐(0)
摘要:转自:https://www.cnblogs.com/zy230530/p/6942458.html 一,引言 前面讲到的基本都是分类问题,分类问题的目标变量是标称型数据,或者离散型数据。而回归的目标变量为连续型,也即是回归对连续型变量做出预测,最直接的办法是依据输入写出一个目标值的计算公式,这样, 阅读全文
posted @ 2018-11-09 10:33 Python少年 阅读(2278) 评论(0) 推荐(0)
摘要:Adaboost算法概述 Adaboost算法核心思想:“三个臭皮匠赛过一诸葛亮”。我们平常构建的分类模型可以说是弱分类器,若将这些弱分类器组合起来可以成为一个强分类器。大多数的提升方法是该表训练数据的概率分布(训练数据的权值分布),针对不同的训练数据分布调用弱学习算法学习。 如何改变训练数据的权值 阅读全文
posted @ 2018-11-09 08:43 Python少年 阅读(345) 评论(0) 推荐(0)
摘要:工业界往往会根据实际的业务场景拟定相应的业务指标。本文旨在一起学习比较经典的三大类评价指标,其中第一、二类主要用于分类场景、第三类主要用于回归预测场景,基本思路是从概念公式,到优缺点,再到具体应用(分类问题,本文以二分类为例)。 1.准确率P、召回率R、F1 值 定义 准确率(Precision): 阅读全文
posted @ 2018-11-09 08:34 Python少年 阅读(1571) 评论(0) 推荐(0)