机器学习 - 随笔分类 - 淇则有岸

摘要：k个主题时取前k列/前k行阅读全文

posted @ 2020-01-07 19:55 淇则有岸阅读(276) 评论(0) 推荐(0)

摘要：目录：隐马尔可夫模型 Viterbi算法（必须掌握）简述：普通领域不常用，自然语言与金融领域用的比较多，总共涉及到概率问题，求参数问题，取范围问题。用到的知识点有全概率公式，条件概率公式，边缘概率公式，贝叶斯公式，极大似然估计概率计算问题直接计算法暴力算法前向算法后向算法后向算法不阅读全文

posted @ 2020-01-06 22:03 淇则有岸阅读(396) 评论(0) 推荐(0)

机器学习——贝叶斯算法

摘要：目录：朴素贝叶斯贝叶斯网络朴素贝叶斯特征属性之间没有关联关系，相互独立的，在此基础上应用贝叶斯定理。文本数据分类知识阅读全文

posted @ 2020-01-03 13:40 淇则有岸阅读(421) 评论(0) 推荐(0)

SVM算法机器学习

摘要：目录梯度下降法、拉格朗日乘子法、KKT条件回顾感知器模型回顾SVM线性可分SVM线性不可分核函数SMO SVM线性可分，SVM线性不可分，核函数，要求会推导 ———————————————————————————— 学习率（步长）可以是任何数，如果是二阶偏导数的话，则为牛顿法优化问题：给定一个阅读全文

posted @ 2020-01-02 22:03 淇则有岸阅读(1255) 评论(0) 推荐(0)

机器学习——谱聚类

摘要：谱聚类是基于谱图理论基础上的一种聚类方法，与传统的聚类方法相比: 具有在任意形状的样本空间上聚类并且收敛于全局最优解的优点。通过对样本数据的拉普拉斯矩阵的特征向量进行聚类，从而达到对样本数据进行聚类的目的; 其本质是将聚类问题转换为图的最优划分问题，是一种点对聚类算法。谱聚类算法将数据集中的每个对阅读全文

posted @ 2020-01-01 19:39 淇则有岸阅读(447) 评论(0) 推荐(1)

机器学习——Canopy算法

摘要：原理：先设置两个先验值r1，r2，我把他们理解为内圈外圈，大家可以跟我学。将所有样本放入一个列表，随机选一个样本拿出来作为第一个簇的簇中心点，然后从列表中剩下的所有样本中随机抽取一个,，计算其与簇中心点的距离。如果大于外圈r1，则不属于此簇，而是拿出去单独成为一簇，并作为簇中心点，从列表中删除此样阅读全文

posted @ 2020-01-01 18:40 淇则有岸阅读(1354) 评论(2) 推荐(1)

机器学习——密度聚类

摘要：简单来说：邻域就是范围，密度就是该范围内样本的个数。核心点：设定一个阈值M，如果在该邻域内不包括某点本身，样本的个数大于阈值M,则此点就是核心点。对于一个数据集来说，大部分都是核心点，因为邻域是我随便给的嘛，不是核心点的就是非核心点。边界点：若此点不是核心点，但是此点的邻域内包含一个或多个核心阅读全文

posted @ 2020-01-01 18:39 淇则有岸阅读(797) 评论(0) 推荐(1)

机器学习——Mini Batch K-Means算法

摘要：Mini Batch K-Means算法是K-Means算法的一种优化变种，采用小规模的数据子集(每次训练使用的数据集是在训练算法的时候随机抽取的数据子集)减少计算时间，同时试图优化目标函数; Mini Batch K-Means算法可以减少K- Means算法的收敛时间，而且产生的结果效果只是略差阅读全文

posted @ 2020-01-01 17:30 淇则有岸阅读(2474) 评论(0) 推荐(0)

机器学习——聚类算法的评估指标

摘要：共有以下几种评价指标：其中，仅轮廓系数比较合理，别的不过是牵强附会罢了，就差欺世盗名了。混淆矩阵均- -性完整性V-measure调整兰德系数(ARI)调整互信息(AMI)轮廓系数(Silhouette) 轮廓系数：阅读全文

posted @ 2020-01-01 17:28 淇则有岸阅读(1196) 评论(0) 推荐(0)

机器学习——层次聚类算法

摘要：层次聚类方法（我们做算法的用的很少）对给定的数据集进行层次的分解或者合并，直到满足某种条件为止，传统的层次聚类算法主要分为两大类算法: ●凝聚的层次聚类: AGNES算法(AGglomerative NESting)==>采用自底向.上的策略。最初将每个对象作为一个簇，然后这些簇根据某些准则被一步一阅读全文

posted @ 2020-01-01 17:20 淇则有岸阅读(2693) 评论(0) 推荐(0)

机器学习——XGboost算法

摘要：XGboost算法 XGBoost是GBDT算法的一种改进，是一种常用的有监督集成学习算法；是一种伸缩性强、便捷的可并行构建模型的GradientBoosting算法。原理是：在GBDT目标函数的基础上加入惩罚项，如下图绿框。通过限制树模型的叶子节点的个数和叶子节点的值来降低模型复杂度，从而防止过阅读全文

posted @ 2020-01-01 16:04 淇则有岸阅读(2176) 评论(0) 推荐(0)

机器学习——GBDT算法与stacking算法

摘要：GBDT(梯度提升迭代决策树）总结优先解决回归问题，将第一个数据的残差传入到第二个数据中去构建下一个数据集的数据是上一个数据集的残差详述 GBDT也是Boosting算法的一种，但是和AdaBoost算法不同;区别如下: AdaBoost算法是利用前一轮的弱学习器的误差来更新样本权重值，然后阅读全文

posted @ 2020-01-01 16:03 淇则有岸阅读(746) 评论(0) 推荐(0)

机器学习——聚类算法之K-means与K-means++,K-meansⅡ

摘要：相似度判定： ①距离，公式：我们使用以欧式距离为主 ②夹角余弦值：越大，相似度越高内积/模长 ③杰卡德相似系数与相关系数如上图，则说x1与x2相似，即为杰卡德相似系数，为保持和距离的性质一致性，所以1-杰卡德相似系数，相似系数也是一样簇：聚类之后的类别，即为簇聚类只有合理不合理，没有好与坏阅读全文

posted @ 2020-01-01 16:02 淇则有岸阅读(743) 评论(0) 推荐(0)

机器学习——Boosting算法与Adaboost算法

摘要：Boosting算法关键点与难点在于如何修改数据原理：将含有m个数据的数据集丢给一个弱学习器1分类，比如分对百分之60，那么经过一定手段修改数据集，数据个数还是m个，将修改后的数据集扔给弱学习器2训练，学习器2把在学习器1中分错的那一部分又分对百分之三十。再修改数据集，将修改后的数据集扔阅读全文

posted @ 2020-01-01 14:04 淇则有岸阅读(895) 评论(0) 推荐(0)

机器学习——Bagging与随机森林算法及其变种

摘要：Bagging算法：凡解：给定M个数据集，有放回的随机抽取M个数据，假设如此抽取3组，3组数据一定是有重复的，所以先去重。去重后得到3组数据，每组数据量分别是s1,s2,s3，然后三组分别训练组合成一个强模型。如下图：随机森林算法：一般用于大规模数据，百万级以上的。在Bagging算法的基础阅读全文

posted @ 2020-01-01 14:00 淇则有岸阅读(1024) 评论(0) 推荐(0)

机器学习之——集成算法

摘要：集成学习 ———————————————————————————————————————————— 集成算法集成学习的思想是将若干个学习器(分类器&回归器)组合之后产生一个新学习器。弱分类器(weaklearner)指那些分类准确率只稍微好于随机猜测的分类器(准确率稍大于百分之50，可以是之前学阅读全文

posted @ 2019-12-28 14:18 淇则有岸阅读(442) 评论(0) 推荐(0)

机器学习算法原理及推导——目录

摘要：在机器学习的过程中，有很多的算法，算法的原理及推导过程的理解尤为重要，算法的理解深浅直接关系到对模型的构造能力，优化能力，故此，算法原理及推导过程不可不知。代码倒是其次，就那么几行，套模板即可。本文为一个大体的目录，首先要了解到前言知识指导的原理和内容，才能流畅的学习各个算法的原理和推导过程，接下阅读全文

posted @ 2019-12-27 13:17 淇则有岸阅读(583) 评论(0) 推荐(0)

机器学习算法概述第五章——CART算法

摘要：特点：是一个二叉树，元素可以重复利用，可以做回归也可以做分类，分类用最小二乘法，即误差平方和最小切割方法：对于可量化的x来说：切割点通常为两个x的平均值左右两部分分别取均值，再评判以哪个分割点的误差平方和最小，即第一层根节点为此点以此为规则，往下迭代，构建出回归树对于不可量化的x来说：阅读全文

posted @ 2019-12-27 10:39 淇则有岸阅读(955) 评论(0) 推荐(0)

机器学习算法代码实现——线性回归

摘要：前言：拿到一个案例，去分析：它该是做分类还是做回归，哪部分该做分类，哪部分该做回归，哪部分该做优化，它们的目标值分别是什么。再挑影响因素，哪些和分类有关的影响因素，哪些和回归有关的影响因素，哪些和优化有关的影响因素。对于线性回归来说，一、导入需要的所有模块和包 # 引入所需要的全部包 fro 阅读全文

posted @ 2019-12-26 19:43 淇则有岸阅读(603) 评论(0) 推荐(0)

机器学习算法概述第一章——线性回归

摘要：一、机器学习是什么机器学习是人类用数学的语言通过大量的数据训练"教会"计算机做出一系列的行为。二、机器学习的主要算法 ①线性回归算法衍生的：正则化 ②逻辑回归算法 ③KNN算法衍生的KD-tree 三、算法介绍 ①线性回归算法运用线性模型y=ax+b，去拟合数据集，进行数据集的预测。在算法阅读全文

posted @ 2019-12-26 18:52 淇则有岸阅读(521) 评论(0) 推荐(0)

淇则有岸，隰则有泮

随笔分类 - 机器学习

公告