随笔分类 - 机器学习
机器学习与人工智能学习分享与总结
摘要:一。思路 二。代码:#coding:utf-8 import numpy as np import PIL.Image as Image import pickle as p import os class ImageTools(object): image_dir='images/' result_dir='results/' data_file_path='...
阅读全文
摘要:一、前述 指数平滑法对时间序列上连续的值之间的相关性没有要求。但是,如果你想使用指数平滑法计算出预测区间, 那么预测误差必须是不相关的, 且必须是服从零均值、 方差不变的正态分布。即使指数平滑法对时间序列连续数值之间相关性没有要求,在某种情况下, 我们可以通过考虑数据之间的相关性来创建更好的预测模型
阅读全文
摘要:一、前述 集成思想就是让很多个训练器决定一个结果,目的:让机器学习效果更好,单个不行,群殴走起。 二、具体 1、概述 2、Bagging模型 全称: bootstrap aggregation(说白了就是并行训练一堆分类器),最典型的代表就是随机森林啦。 随机:数据采样随机,特征选择随机 森林:很多
阅读全文
摘要:一、前述 SVM在2012年前还是很牛逼的,但是12年之后神经网络更牛逼些,但我们还是很有必要了解SVM的。 二、具体 1、问题引入 要解决的问题:基于以下问题对SVM进行推导 3条线都可以将两边点分类,什么样的决策边界才是最好的呢? 特征数据本身如果就很难分,怎么办呢?计算复杂度怎么样?能实际应用
阅读全文
摘要:一、前述 上节我们讲解了xgboost的基本知识,本节我们通过实例进一步讲解。 二、具体 1、安装 默认可以通过pip安装,若是安装不上可以通过https://www.lfd.uci.edu/~gohlke/pythonlibs/网站下载相关安装包,将安装包拷贝到Anacoda3的安装目录的Scrr
阅读全文
摘要:一、前述 在 Kaggle 的很多比赛中,我们可以看到很多 winner 喜欢用 xgboost,而且获得非常好的表现,今天就来看看 xgboost 到底是什么以及如何应用。Gradient boosting 是 boosting 的其中一种方法,所谓 Boosting ,就是将弱分离器 f_i(x
阅读全文
摘要:一、前述 隐语义模型是近年来推荐系统领域较为热门的话题,它主要是根据隐含特征将用户与物品联系起来。 因为用户和物品之间有着隐含的联系。所以把用户转成隐语义,然后物品转成隐语义组合,通过中介隐含因子连接。 二、具体 1、隐语义模型举例和求解 N代表用户,M代表物体 第一步:先分解 将用户分解成F个因子
阅读全文
摘要:SVD一般应用场景--推荐系统,图像压缩。 1、直观感受。 SVD其实就是将矩阵分界,直观感受如图。就是将A矩阵分界成U,S,V三个矩阵相乘。一般推荐系统中用的多。S是对角阵,里面的特征值是从大到小排列的。 2、前述知识。 一个矩阵乘以一个向量结果还是一个向量,并且等于原始向量的倍,相当于对原始向量
阅读全文
摘要:一、前述 二、构建FP_groupth数流程 1、扫描事务数据库D 一次。收集频繁项的集合F 和它们的支持度。对F 按支持度降序排序,结果为频繁项表L。 2、创建FP 树的根节点,以“null”标记它。对亍D 中的每个事务Trans,执行:选择 Trans中的频繁项,并按L 中的次序排序。设排序后的
阅读全文
摘要:一、前述 主成分分析(Principal Component Analysis,PCA), 是一种统计方法。通过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量,转换后的这组变量叫主成分。 PCA的思想是将n维特征映射到k维上(k<n),这k维是全新的正交特征。这k维特征称为主成分,是重
阅读全文
摘要:一、前述 马尔可夫(1856~1922),苏联数学家。切比雪夫的学生。在概率论、数论、函数逼近论和微分方程等方面卓有成就。 马尔可夫模型(Markov Model)是一种统计模型,广泛应用在语音识别,词性自动标注,音字转换,概率文法等各个自然语言处理等应用领域。经过长期发展,尤其是在语音识别中的成功
阅读全文
摘要:一、前述 Em算法是解决数学公式的一个算法,是一种无监督的学习。 EM算法是一种解决存在隐含变量优化问题的有效方法。EM算法是期望极大(Expectation Maximization)算法的简称,EM算法是一种迭代型的算法,在每一次的迭代过程中,主要分为两步:即求期望(Expectation)步骤
阅读全文
摘要:一、前述 当多个特征属性之间存在着某种相关关系的时候,使用朴素贝叶斯算法就没法解决这类问题,那么贝叶斯网络就是解决这类应用场景的一个非常好的算法。一般而言,贝叶斯网络的有向无环图中的节点表示随机变量,可以是可观察到 的变量,或隐变量,未知参数等等。连接两个节点之间的箭头代表两个随机变量之间的因果关系
阅读全文
摘要:一、前述 提升是一种机器学习技术,可以用于回归和分类的问题,它每一步产生弱预测模型(如决策树),并加权累加到总模型中;如果每一步的弱预测模型的生成都是依据损失函数的梯度方式的,那么就称为梯度提升(Gradient boosting)提升技术的意义:如果一个问题存在弱预测模型,那么可以通过提升技术的办
阅读全文
摘要:一、前述 AdaBoost算法和GBDT(Gradient Boost Decision Tree,梯度提升决策树)算法是基于Boosting思想的机器学习算法。在Boosting思想中是通过对样本进行不同的赋值,对错误学习的样本的权重设置的较大,这样,在后续的学习中集中处理难学的样本,最终得到一系
阅读全文
摘要:一、前述 关联规则的目的在于在一个数据集中找出项之间的关系,也称之为购物蓝分析 (market basket analysis)。例如,购买鞋的顾客,有10%的可能也会买袜子,60%的买面包的顾客,也会买牛奶。这其中最有名的例子就是"尿布和啤酒"的故事了。 二、相关概念 交易集:包含所有数据的一个数
阅读全文
摘要:一、前述 机器学习算法中,有种依据概率原则进行分类的朴素贝叶斯算法,正如气象学家预测天气一样,朴素贝叶斯算法就是应用先前事件的有关数据来估计未来事件发生的概率。 二、具体 1、背景--贝叶斯定理引入对于两个关联事件(非独立事件)A和B,同时发生的概率为:P(AB)=P(A|B)P(B)=P(B|A)
阅读全文
摘要:一、前述 NumPy(Numerical Python的缩写)是一个开源的Python科学计算库。使用NumPy,就可以很自然地使用数组和矩阵。 NumPy包含很多实用的数学函数,涵盖线性代数运算、傅里叶变换和随机数生成等功能。 这个库的前身是1995年就开始开发的一个用于数组运算的库。经过了长时间
阅读全文
摘要:一、前述 谱聚类(spectral clustering)是一种基于图论的聚类方法,主要思想是把所有的数据看做空间中的点,这些点之间可以用边连接起来。距离较远(或者相似度较低)的两个点之间的边权重值较低,而距离较近(或者相似度较高)的两个点之间的边权重值较高,通过对所有数据点组成的图进行切图,让切图
阅读全文
摘要:一、前述 聚类就是对大量未知标注的数据集,按数据的内在相似性将数据集划分为多个类别,使类别内的数据相似度较大而类别间的数据相似度较小.数据聚类算法可以分为结构性或者分散性,许多聚类算法在执行之前,需要指定从输入数据集中产生的分类个数。1.分散式聚类算法,是一次性确定要产生的类别,这种算法也已应用于从
阅读全文


浙公网安备 33010602011771号