随笔分类 - 机器学习
摘要:目录: 隐马尔可夫模型 Viterbi算法(必须掌握) 简述:普通领域不常用,自然语言与金融领域用的比较多,总共涉及到概率问题,求参数问题,取范围问题。 用到的知识点有全概率公式,条件概率公式,边缘概率公式,贝叶斯公式,极大似然估计 概率计算问题 直接计算法 暴力算法 前向算法 后向算法 后向算法不
阅读全文
摘要:目录: 朴素贝叶斯 贝叶斯网络 朴素贝叶斯 特征属性之间没有关联关系,相互独立的,在此基础上应用贝叶斯定理。 文本数据分类知识
阅读全文
摘要:目录 梯度下降法、拉格朗日乘子法、KKT条件回顾感知器模型回顾SVM线性可分SVM线性不可分核函数SMO SVM线性可分,SVM线性不可分,核函数,要求会推导 ———————————————————————————— 学习率(步长)可以是任何数,如果是二阶偏导数的话,则为牛顿法 优化问题: 给定一个
阅读全文
摘要:谱聚类是基于谱图理论基础上的一种聚类方法,与传统的聚类方法相比: 具有在任意形状的样本空间上聚类并且收敛于全局最优解的优点。 通过对样本数据的拉普拉斯矩阵的特征向量进行聚类,从而达到对样本数据进行聚类的目的; 其本质是将聚类问题转换为图的最优划分问题,是一种点对聚类算法。谱聚类算法将数据集中的每个对
阅读全文
摘要:原理:先设置两个先验值r1,r2,我把他们理解为内圈外圈,大家可以跟我学。将所有样本放入一个列表,随机选一个样本拿出来作为第一个簇的簇中心点,然后从列表中剩下的所有样本中随机抽取一个,,计算其与簇中心点的距离。 如果大于外圈r1,则不属于此簇,而是拿出去单独成为一簇,并作为簇中心点,从列表中删除此样
阅读全文
摘要:简单来说:邻域就是范围,密度就是该范围内样本的个数。 核心点:设定一个阈值M,如果在该邻域内不包括某点本身,样本的个数大于阈值M,则此点就是核心点。 对于一个数据集来说,大部分都是核心点,因为邻域是我随便给的嘛,不是核心点的就是非核心点。 边界点:若此点不是核心点,但是此点的邻域内包含一个或多个核心
阅读全文
摘要:Mini Batch K-Means算法是K-Means算法的一种优化变种,采用小规模的数据子集(每次训练使用的数据集是在训练算法的时候随机抽取的数据子集)减少计算时间,同时试图优化目标函数; Mini Batch K-Means算法可以减少K- Means算法的收敛时间,而且产生的结果效果只是略差
阅读全文
摘要:共有以下几种评价指标: 其中,仅轮廓系数比较合理,别的不过是牵强附会罢了,就差欺世盗名了。 混淆矩阵均- -性完整性V-measure调整兰德系数(ARI)调整互信息(AMI)轮廓系数(Silhouette) 轮廓系数:
阅读全文
摘要:层次聚类方法(我们做算法的用的很少)对给定的数据集进行层次的分解或者合并,直到满足某种条件为止,传统的层次聚类算法主要分为两大类算法: ●凝聚的层次聚类: AGNES算法(AGglomerative NESting)==>采用自底向.上的策略。最初将每个对象作为一个簇,然后这些簇根据某些准则被一步一
阅读全文
摘要:XGboost算法 XGBoost是GBDT算法的一种改进,是一种常用的有监督集成学习算法;是一种伸缩性强、便捷的可并行构建模型的GradientBoosting算法。 原理是:在GBDT目标函数的基础上加入惩罚项,如下图绿框。通过限制树模型的叶子节点的个数和叶子节点的值来降低模型复杂度,从而防止过
阅读全文
摘要:GBDT(梯度提升迭代决策树) 总结 优先解决回归问题,将第一个数据的残差传入到第二个数据中去 构建下一个数据集的数据是上一个数据集的残差 详述 GBDT也是Boosting算法的一种,但是和AdaBoost算法不同;区别如下: AdaBoost算法是利用前一轮的弱学习器的误差来更新样本权重值,然后
阅读全文
摘要:相似度判定: ①距离,公式: 我们使用以欧式距离为主 ②夹角余弦值:越大,相似度越高 内积/模长 ③杰卡德相似系数与相关系数 如上图,则说x1与x2相似,即为杰卡德相似系数,为保持和距离的性质一致性,所以1-杰卡德相似系数,相似系数也是一样 簇:聚类之后的类别,即为簇 聚类只有合理不合理,没有好与坏
阅读全文
摘要:Boosting算法 关键点与难点在于如何修改数据 原理:将 含有m个数据的数据集 丢给一个弱学习器1分类,比如分对百分之60, 那么经过一定手段修改数据集,数据个数还是m个,将修改后的数据集扔给弱学习器2训练,学习器2把在学习器1中分错的那一部分又分对百分之三十。 再修改数据集,将修改后的数据集扔
阅读全文
摘要:Bagging算法: 凡解:给定M个数据集,有放回的随机抽取M个数据,假设如此抽取3组,3组数据一定是有重复的,所以先去重。去重后得到3组数据,每组数据量分别是s1,s2,s3,然后三组分别训练组合成一个强模型。如下图: 随机森林算法: 一般用于大规模数据,百万级以上的。 在Bagging算法的基础
阅读全文
摘要:集成学习 ———————————————————————————————————————————— 集成算法 集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器。 弱分类器(weaklearner)指那些分类准确率只稍微好于随机猜测的分类器(准确率稍大于百分之50,可以是之前学
阅读全文
摘要:在机器学习的过程中,有很多的算法,算法的原理及推导过程的理解尤为重要,算法的理解深浅直接关系到对模型的构造能力,优化能力,故此,算法原理及推导过程不可不知。代码倒是其次,就那么几行,套模板即可。 本文为一个大体的目录,首先要了解到前言知识指导的原理和内容,才能流畅的学习各个算法的原理和推导过程,接下
阅读全文
摘要:特点: 是一个二叉树,元素可以重复利用,可以做回归也可以做分类,分类用最小二乘法,即误差平方和最小 切割方法: 对于可量化的x来说: 切割点通常为两个x的平均值 左右两部分分别取均值,再评判以哪个分割点的误差平方和最小,即第一层根节点为此点 以此为规则,往下迭代,构建出回归树 对于不可量化的x来说:
阅读全文
摘要:前言:拿到一个案例,去分析: 它该是做分类还是做回归,哪部分该做分类,哪部分该做回归,哪部分该做优化,它们的目标值分别是什么。 再挑影响因素,哪些和分类有关的影响因素,哪些和回归有关的影响因素,哪些和优化有关的影响因素。 对于线性回归来说, 一、导入需要的所有模块和包 # 引入所需要的全部包 fro
阅读全文
摘要:一、机器学习是什么 机器学习是人类用数学的语言通过大量的数据训练"教会"计算机做出一系列的行为。 二、机器学习的主要算法 ①线性回归算法 衍生的:正则化 ②逻辑回归算法 ③KNN算法 衍生的KD-tree 三、算法介绍 ①线性回归算法 运用线性模型y=ax+b,去拟合数据集,进行数据集的预测。在算法
阅读全文